Diverse formate de fișiere. Noi studiem formate de fișiere text

Un set de reguli pentru care sunt salvate datele în fișier se numește un format de fișier. tipuri diferite Fișiere, cum ar fi fișiere text, grafică raster etc., folosesc diferite formate. În cazul general, mai multe fișiere pot fi definite de mai multe formate diferiteDeși adesea sub tipul de fișier și formatul înțelege același lucru. Formatul fișierului este determinat de extensia de nume de fișier, care este adăugată la numele fișierului când este salvată într-un format specific, de exemplu, DOC, GIF, etc.

De regulă, formatele de fișiere sunt create pentru a fi utilizate într-un program de aplicație strict definit. De exemplu, obiectele grafice create în pachetul celebru vector grafic CorelDRAW, stocate ca fișiere cu extensie CDR și imagini generate de un alt pachet grafic, Corelxara, înregistrată pe disc ca fișiere cu extensia XAR. Unele formate nu sunt asociate cu aplicații specifice, adică sunt universale. Una dintre cele mai renumite formate universale este formatul TXT (formatul fișierului text DOS).

Utilizați adesea compresia fișiere de calculator. Pentru a economisi spațiu pe transportator. Există multe modalități de a comprima fișiere. Aceste metode depind de formatul fișierului sursă. De regulă, cu atât este mai mare gradul de comprimare, cu atât sunt efectuate operațiunile de citire și înregistrare mai live.

În ceea ce privește algoritmii de compresie, există amândoi algoritmi de compresie fără pierderi de date și algoritmi, atunci când este posibilă pierderea datelor.



Compresia fără pierdere asigură că toate datele care au fost în fișier înainte de comprimare vor fi prezente după despachetarea fișierului. Mecanismele de compresie fără pierderi sunt utilizate în timp ce salvați date text sau numerice, cum ar fi foi de calcul sau fișiere de documente. Exemple de algoritmi de compresie fără pierderi sunt bine-cunoscuți algoritmi de zip, ARJ și altele.

Dadim. scurta descriere Formate utilizate de bază:

§ Codul standard american pentru schimbul de informații ASCII (TXT). Formatul fișierelor text dezvoltate de Institutul American de Institute (Institutul Național de Standarde Naționale). Susținute de toate sistemele de operare și de toate programele. Este un fișier text în codarea DOS, fără model de introducere a funcțiilor, fără formatare, funcționează în toate mașinile, este posibil să se creeze numai fișiere de volum mic.

§ ANSI (TXT). Formatați fișiere text în codarea ANSI (pentru cod pagini Microsoft Ferestre)

§ MSWORD pentru DOS, Windows (.d). Formatul de document dezvoltat de Microsoft este susținut de programe pentru MS-DOS și majoritatea procesatorilor de text. Menține formatul original al documentelor, precum și stilurile stilurilor de caractere. in afara de asta informații text., aceste fișiere de format pot conține imagini grafice. cu parametri diferiți. Suportă 256 de culori. Nu acceptă comprimarea. Acesta este utilizat în principal pentru partajarea datelor text formatate între diferite platforme și aplicații.

§ Limba de marcare hipertext HTML (HTM, HTML). Hyper Markup Limba documente text. Toate paginile situate pe Internet sunt create folosind acest limbaj special. Documentele HTML sunt disponibile fișiere ASCII pentru vizualizare și editare în orice editor de text. Onoruri de la ordinare fisier text Este faptul că documentele HTML conțin comenzi speciale de etichete care definesc regula de formatare a documentelor. Dacă ați reușit să stăpâniți limba HTML, atunci puteți crea pagini pentru Internet. Prin adăugarea de etichete (etichete) la textul obișnuit, faceți programul de vizionare afișați acest text într-un anumit mod și postați pe pagina de imagini. Dacă ați învățat Java și JavaScript, știți cum să extindeți capabilitățile HTML prin plasarea etichetelor de echipă scrise în limba scriptului.

§ Formatul de document portabil PDF (.pdf). Acest format de stocare a documentelor dezvoltat de Adobe se aplică rolului unui standard tipografic deschis pentru web. Este considerată o alternativă la HTML. Dezavantajul HTML este că documentele traduse în HTML, de obicei, nu păstrează formatul inițial, iar HTML oferă atunci când vizualizează un număr foarte limitat de căști. Dimpotrivă, utilizatorii programe Acrobat. și instrumentele PDF pentru a crea, distribui și vizualiza documente în formatul inițial, știți că cititorii vor vedea publicația exact ceea ce sa făcut. Formatul PDF. Indispensabil dacă aveți nevoie pentru a obține o copie exactă a documentului dorit. Ca exemplu de utilizare cu succes a PDF pentru documentele din limba rusă, oferim serverul de "știri Moscova" pe Internet. Prezentat pe acesta în format electronic Materialele repetă complet hârtia originale, tipărite de un mod tipografic.

§ Limba standard de marcare generalizată (SGML). Dezvoltarea HTML este tradusă ca un limbaj standard de marcare generalizat. Este un set instrumental de mecanisme pentru crearea documentelor structurate marcate cu descriptori (etichete). Comparativ cu HTML, furnizează capabilități de formatare mai flexibile și versatile pe web. Cu toate acestea, SGML se distinge și prin viteză mare, prin urmare, ca instrument mai simplu, PDF se aplică. Puterea SGML constă în abordarea structurală intergenerată a descrierii conținutului documentelor. SGML este de fapt Metawagon, adică. Concepute pentru a descrie limbile de marcare utilizate la crearea documentelor.

Cu fișiere text (documente) ne confruntăm aproape zilnic. Cu toate acestea, această problemă nu urmează fișierul text și formatul de date text, acestea sunt lucruri diferite. Să încercăm să determinăm ce dosare de acest tip reprezintă și ceea ce sunt.

Extinderea unui fișier text: Ce este?

Să începem cu faptul că, de regulă, majoritatea fișierelor de acest tip au o extensie sub forma unui separator de trei litri (punct). Cel mai simplu și cel mai frecvent tip este fișierele cu extensie. Txt deschis la fel sisteme Windows. Cu ajutorul unui notepad standard.

Cu toate acestea, în ciuda regulilor general acceptate, expansiunea fișierului de document text poate conține trei listere, și mai mult (numărul lor poate ajunge la doisprezece, dar nu mai mult), de exemplu, fișiere electronice .djvu. În plus, extensia poate prezenta numere.

Ce ne dă să luăm în considerare clasificarea unui fișier text (document) în ceea ce privește identificarea acestora? Și faptul că o privire vă permite să rezolvați instantaneu o întrebare importantă: ce extensie are fișiere text, acesta este, de asemenea, un program asociat cu acesta pentru deschiderea sau editarea. Imediat, în multe cazuri, este aproape întotdeauna posibilă determinarea aplicației inițiale în care a fost creat un astfel de fișier.


Cu toate acestea, nu ar trebui să uitați că astăzi vă puteți întâlni suficient număr mare. Fișiere cu aceleași extensii, dar create în alte aplicații sau asociate cu diferite programe. Se pare că fișierul obișnuit cu extensie.doc (.docx) corespunde inițial editorului de text Microsoft Word.. Dar, la urma urmei, este posibil să o deschideți sau să o mențineți în această formă în cealaltă chiar pe computerele "Apple". Acest lucru poate fi atribuit și, astfel încât să spunem, fișierele de format mixt .pdf, care conține nu numai text, ci și grafică. Dar după toate I. documente cuvânt. Pot conține imagini introduse.

Acesta este indicatorul că extinderea fișierului text indică universalitatea formatului în sine, care este cea mai "citită", indiferent de aplicat sistem de operare. Același lucru este valabil și pentru orice tip.

Tipuri de expansiune de fișiere: Text

În general, astăzi este conștient de un număr mare. formate text Și extensiile lor, care, probabil, practic niciun specialist nu se vor angaja să-și calculeze întreaga sumă.


Da, desigur, versatilitatea acestor documente nu este nici o îndoială, mai ales dacă utilizează cea mai simplă, dar uneori problema poate consta ca nicio codificare să fie susținută de un anumit sistem sau un program. De aceea, pe ecran apare un set de caractere în locul literelor obișnuite.

În ceea ce privește soiurile de fișiere text, toate acestea nu listate. Cele mai frecvente sunt următoarele: .txt, .doc, .tex, .Text, .pdf, .log, .pt, .df, .er, .sub, .djvu, .odt, .rtf și multe altele. Această listă poate fi continuată pentru infinit.

Care este cel mai interesant, multe fișiere de acest tip în sistem au un rol diferit. De exemplu, în afară de un fișier de subtitrări obișnuite.Sub, pentru vizualizare Când deschideți videoclipul, poate exista un document de text obișnuit .Txt și, în acest sens, multe formate sunt interschimbabile.


Observați, chiar și fișiere executabile poate avea text ca conținut. Cel mai simplu exemplu este File.bat creat în "Notebook" obișnuit și care conține text sub forma unui set de comenzi. Când apare, apare execuția comenzilor, iar meniul "Deschis cu ..." este utilizat pentru a edita dacă nu este inițial în comparație cu acest proces.


O astfel de situație este observată cu documente care utilizează limbi de marcare sau programare, de exemplu, fișiere.html, .htm, .xml etc. Chiar și paginile web pot fi deschise în mulți editori inițial ca fișiere text care conțin elemente terțe părți.

Schimbați extensiile fișierelor text

În ceea ce privește schimbarea de expansiune, uneori poate fi schimbată, de exemplu .Txt v.doc și înapoi. Word Editor va deschide orice tip. Același lucru este valabil și pentru perechea .txt - bat la deschiderea în "Notepad". Dar, în alte cazuri, este mai bine să nu producem astfel de manipulări, va fi pur și simplu nu va duce la nimic, iar fișierul redenumit nu va putea să se deschidă. Schimbarea formatului va trebui efectuată utilizând software-ul de conversie specială.

În loc de preșcolar

După cum se poate înțelege deja, extensia fișierului text poate avea un set de variații, în funcție de documentul programului. Dar, precum și în alte cazuri, conform prelungirii, este aproape întotdeauna posibilă determinarea inițial a aplicației asociate, în cazul extrem, pentru a deschide orice altă lucrare de susținere a programului cu un astfel de tip de date, chiar dacă aplicația originală calculatorul lipsește. Și după cum probabil, este clar că fișierele text sunt, de fapt, în lumea calculatoarelor cele mai frecvente și universale, indiferent de pachetele software și sistemele de operare utilizate.

Uneori, datele de text au fost plasate numai într-un singur tip de container - TCT. Nu au existat alții. Acum, numărul lor se poate apropia de semide. Cumva folosim în mod constant, cu alții se confruntă cu extrem de rar. Nici măcar nu suspectăm despre existența a treia. Luați în considerare cea mai frecventă stocare a datelor text în ceea ce privește confortul în utilizare.
<<>>

TKT ("Text simplu")

Prin urmare, genul "genului". Folosit în mod activ în această zi. Deoarece textul este stocat ca o secvență de simboluri, dimensiunea fișierului în octeți este egală cu numărul de caractere plus simboluri neimprimate (spațiu spațial, fila, sfârșitul paragrafului și altele - sunt numite și semne de formatare). Datorită acestui lucru, dimensiunea redusă a fișierului este realizată. Cu toate acestea, posibilitățile de formatare a acestor documente sunt foarte limitate. În esență, este doar textul. Datele text pot fi stocate nu numai în containere cu o extensie a TKT. De fapt, aceste extensii nu sunt obligatorii. Redenumiți TCT în doc, nimic nu se va schimba. Structura internă va rămâne aceeași. În același mod, schimbarea extinderii DOC pe TCT, veți obține același fișier "Vordovsky". De ce aveți nevoie de aceste trei scrisori după acest punct? Pentru interpretarea corectă de programele care le deschid în mod implicit.

RTF ("Format de text bogat" - "Format de text îmbogățit")

Formatul gratuit inter-platformă pentru stocarea documentelor text create de Microsoft în 1987. Acum este larg răspândită, astfel încât cei mai modernici editori de text să o susțină. După ce a creat RTF pe platforma Windows, acesta va fi perfect citit și editat pe alte platforme (Apple, Linux și altele). Standard de facto în imprimare. Cu toate acestea, nu toate programele creează în mod egal corect. Se remarcă faptul că în documentul creat în OpenOffice, uneori formatarea și o parte din textul transformat în caractere necitite.

RTF vă permite să produceți și să mențineți formatarea destul de complexă, puneți piciorul, subsolurile, desenele, tabelele și formulele, deși este încă inferioară formularului DOC. El este inferior DOC și în domeniul de aplicare al fișierelor: documentele complexe sunt stocate mai compact în fișierele DOC (simple dimpotrivă). Cu toate acestea, RTF câștigă o dispută cu un doc în ceea ce privește securitatea, deoarece nu utilizează macrocomenzii. Prin urmare, contaminate de macrovirus fișiere de cuvinte. Puteți "vindeca" salvarea în format RTF. În plus, formatul RTF este stabil pentru a deteriora fișierul. Dacă în fișierul DOC pentru a schimba cel puțin un octet, atunci nu se va deschide în cuvânt. O deteriorare a fișierului în formatul RTF poate duce doar la pierderea unui text deteriorat de text.

DOC (din engleză. "Document")

La început, această extensie a fost utilizată pentru a desemna fișiere text simple fără formatare, dar la începutul anilor '90 Microsoft de fapt "privatizat". Prin urmare, acum DOC este asociat numai cu produsele acestei companii. Acest format oferă capabilități de formatare a textului (scenarii, macrocomenzi). Datorită acestui fapt, compatibilitatea cu editorii de text ai dezvoltatorilor terți sa înrăutățit. Fișierul acestui format conține o cantitate imensă de informații despre fonturi, desene de desene, depozite și intervale paragrafice, chiar dacă toate acestea nu sunt necesare pentru dvs. Din cauza acestor informații suplimentare, un fișier care conține doar text depășește dimensiunea fișierului RTF. Cu toate acestea, atunci când este activată într-un document de diverse elemente grafice Și imaginile Doc câștigă mărimea și oferă o compatibilitate mai mare. Spre deosebire de DOC TLC și RTF este un format binar care o face probabil să fie simplă editori de text. De exemplu, "Notepad" poate vizualiza unele fișiere RTF. Popular la un par cu RTF.

Docx.

Odată cu apariția Office 2007, Microsoft sa mutat la noi formate bazate pe Office Open XML (diferă vizual în modul în care litera "x" a fost adăugată la extensii). Formatul este o arhivă ZIP care conține text sub formă de XML, grafică și alte date. Compresia zip este utilizată pentru a reduce dimensiunea fișierului. Documentele înapoi sunt compatibile cu Office 2000 / XP / 2003, numai dacă sunt instalate Microsoft Office. Pachetul de compatibilitate (găsiți și descărcați poate fi de la site-ul oficial Microsoft, dimensiunea fișierului este de 27,8 MB). Dacă aveți nevoie să convertiți urgent DOCX la un alt format, utilizați serviciile site-ului http://docx-converter.com/. Dacă utilizați ultima versiune Office și intenționați să transmiteți fișiere oricui, să salvați documente către RTF sau DOC.

ODT / ODF (format de document deschis)

ODF - Numele general format deschis Documente pentru aplicații de birou (Text, tabele, imagini, baze de date, prezentări). Datele text sunt stocate în fișiere cu extensia ODT. Standardul a fost dezvoltat de comunitatea industrială Oasis și se bazează pe un format XML. La 1 mai 2006, adoptată ca standard internațional ISO / IEC 26300. ODF este disponibil pentru toată lumea și poate fi utilizat fără restricții. Simplu alternativă închisă formate Microsoft. Pentru a citi și a scrie format ODF în Microsoft Products, a fost lansat pluginul Sun ODF pentru Microsoft Office Plugin. Suportul ODF în Microsoft Office 2007 trebuie introdus cu eliberarea cu Service pachet. 2. Din păcate, este încă inferior prevalenței RTF și DOC.

HTML.

(Din limba engleză HyperText Markup - "Limba de marcare hipertext")

Limba standard de marcare a documentelor pe Internet (extensie. HTM / HTML). Paginile web sunt create folosind limba HTML. (sau xhtml). HTML a fost dezvoltat de oamenii de știință britanici Tim Berners-Lee în 1991 ca o limbă pentru schimbul de documentație științifică și tehnică adecvată de către persoane care nu sunt experți în domeniul aspectului. Text S. hTML Markup. ar fi trebuit să fie reprodusă fără distorsiuni stilistice și structurale diferite dispozitive. Cu toate acestea, ulterior introducerea activă a designului multimedia și grafică la zdrobirea acestor planuri. Pentru vizualizarea documentelor HTML nu sunt necesare editori speciali, Suficient instrumente standardîncorporate în sistemul de operare. Prin deschidere, indexabilitate, convertibilitate și lizibilitate depășesc orice alte formate. Din păcate, grafica persistă în dosare separată. Internet Explorer. Vă permite să salvați textul și programul într-un document de format MNT, dar alte browsere nu pot deschide un fișier similar.

CHM (compilat HTML)

SNM, în esență, acesta este un set de documente HTML compilate, ceva asemănător unei arhive din paginile web, datorită dimensiunii sale mai mici. Pentru a vizualiza, utilizați utilitarul construit în Windows 98 / NT și mai sus. Există, de asemenea, opinii terță parte. Pentru a crea fișiere SNM, puteți utiliza instrumentul GRATUIT HTML Help Workshop. Acum utilizate în mod activ ca un certificat de diverse aplicații.

PDF.

(Formatul de document portabil - formatul documentului)

Formatul transfrontalier documente electroniceCreat de Adobe Systems folosind un număr de capabilități de limbă PostScript. În primul rând, este destinat prezentării în formă electronică a produselor tipografice. Puteți utiliza oficialul program gratuit Adobe Reader., atacând programul altor dezvoltatori. Este convenabil deoarece există o problemă cu ruperea formatării, afișarea incorectă a elementelor grafice încorporate, absența anumitor fonturi. Fișierul de pe orice platformă va fi afișat în aceeași formă, în care a fost creat. Modul tradițional de a crea documente PDF este următorul: documentul este pregătit în programul său și apoi exportat în PDF. Unele programe au capacitatea de a exporta (fără utilizare imprimanta virtuală). De exemplu, OpenOffice.org. Nu există o astfel de opțiune în MS Word. Standard de facto pentru cea mai mare documentație.

DJVU ("DEJA NU")

Tehnologia suspensiei cu pierderi concepute special pentru stocarea documentelor scanate - cărți, jurnale, manuscrise etc., unde prezența formulelor, a modelelor, a desenelor și a simbolurilor de mână le face extrem de mult timp consumă recunoașterea lor deplină. Este, de asemenea, o soluție eficientă dacă aveți nevoie să transmiteți toate nuanțele de design, de exemplu, documente istorice. Foarte frecvente, multe biblioteci o folosesc pentru stocarea cărților științifice scanate. Djvu este uneori numit un format "text-grafic". Esența tehnologiei DJVU este de a împărți automat imaginea în mai multe secțiuni (de exemplu, textul, logo-ul companiei și fotografia raster), pentru fiecare dintre care este selectat algoritmul optim de compresie. În plus, fișierul DJVU poate conține un cuprins interactiv interactiv încorporat și zone active - referințe, care vă permite să implementați navigație convenabilă. Acesta oferă o victorie în dimensiunea fișierului în comparație cu formatul GIF în medie de una și jumătate sau două ori.

XML.formate

("Limba de marcare extensibilă")

Există destule formate de text create pentru un anumit dispozitiv sau program. De exemplu, e-cărți. Acestea includ Rocket E-Book (.RB), Microsoft Reader (.lit), Palmdoc, Mobipocket (.pro) etc. De regulă, toate acestea sunt create folosind limba XML. Cea mai reușită și cea mai frecventă dintre ele este formatul FictionBook (FB2). Pe acest moment Acesta este formatul cel mai progresiv și promițător al cărților electronice. Singurul dezavantaj al costurilor temporare actuale în pregătirea textului inițial. Ceea ce plătește ușurința de citire. În FictionBook, accentul se pune pe structura documentului: Cu ajutorul etichetelor, puteți evidenția diferite zone ale textului (capitole, anteturi, citate, inele). Cum se uită totul pe ecran depinde de programul Rider. Dacă doriți să faceți un document într-un anumit mod, este posibil să vă alăturați foii de stil.

Fiecare utilizator al PC-ului se confruntă în mod constant diferitelor formate de fișiere text, dar greu de gândit la cât de bogate este istoria acestor formate și programe care a prezentat o persoană să citească cărți, să lucreze cu textul și să creeze toate documentele necesare direct pe computer .

Istoria fișierelor text nu este mult mai mică decât ei înșiși calculatoare personale - Deja capodoperele lor au fost scrise în primii analogi ai "notebook-ului" modern. Deci, care sunt formatele fișierelor și programelor text pentru a lucra cu ei? Mai întâi trebuie să înțelegeți ce fișiere text sunt necesare, care dintre ele diferențe și că au în comun. Combină absolut toate formatele de text. Sarcina lor principală este de a salva informații despre text. Acestea diferă în cazul capacităților de procesare și precum și accesul la informațiile stocate în fișierele de informare în ceea ce privește compatibilitatea cu alte programe.

Cel mai simplu format de text este în mod tradițional formatul TXT. El este cel mai modest în posibilitățile și cel mai vechi format de text. Datorită simplității sale (posibilitatea de TXT este limitată la un set de text și o defalcare a acestuia pe paragrafe), acest format este adesea folosit de un număr mare de aplicații și programe pe o varietate de platforme.

Odată cu distribuirea computerelor personale și o creștere a vânzărilor lor, Microsoft creează un alt format popular, numit format text bogat (sau doar RTF). Este un text care este postat folosind anumite "cuvinte de control", permițând nu numai produse, ci și pentru a menține elemente de formatare complexă și introduceți formule, mese, desene, subsoluri și note de subsol.

Cu toate acestea, RTF este destul de inferior în capacitățile formatului DOC, creat și microsoft. Mai ales pentru pachetul de programe numit Microsoft Office. Creat cu mai mult de cincisprezece ani în urmă, DOC include un număr mare de caracteristici pentru formatarea și prelucrarea textului, crearea, editarea și plasarea imaginilor, diagramelor, tabelelor și alte elemente. Trebuie remarcat faptul că cele mai corecte aceste funcții vor funcționa numai în programul MS Word. Acest lucru se datorează în primul rând faptului că Microsoft nu este specificațiile actuale ale formularului DOC și nu oferă concurenților și dezvoltatorilor independenți să utilizeze pe deplin posibilitățile acestui format. Acest fapt este unul dintre principalele motive pe care alte formate de fișiere text sunt, de asemenea, utilizate pe scară largă în timpul nostru.

Principala diferență în formatul DOC din text și TXT este binaritatea sa, datorită căreia devine necitită într-o astfel de simplă ca WordPad, Lexicon, Atlantis. Mai mult, în unele cazuri, puteți observa incompatibilitatea fișierelor DOC create în diferite versiuni ale programului MS Word.

Formatele de fișiere text deschise și editare pot fi într-un număr mare de programe. În plus față de MS Cuvânt menționat anterior, cele mai frecvente sunt fabricate de SunOffice de Sun Microsystems, WordPerfect din Corel și pachetul gratuit OpenOffice.org.

Cu distribuția cititorilor electronici de dispozitiv, alte formate de fișiere text sunt populare, de exemplu, FB2 și LRF.

Pentru a obține utilizarea diferitelor formate de text pe diferite platforme, create un numar mare de Programe numite convertoare. Convertoarele de fișiere text vă permit să salvați textul sursă dintr-un format la altul și să îl utilizați aici pe diverse dispozitive și platforme.

Convertoarele sunt aplicate nu numai pentru a salva textul de la unul la altul, ci și pentru a crea fișiere care, spre deosebire de sursele lor, pot fi utilizate pe dispozitivele care nu sunt capabile să "citească" fișierele originale. De exemplu, unele cărți electronice care nu acceptă formate de fișiere text populare sunt capabile să creeze formate LRF sau FB2 obținute de la fișiere sursă Utilizarea software-ului convertorului.