Codificarea koi8-r. Ce fel de codificare Koi8-R și ce a dat ea? KOI Codificarea tabelului 8 cod zecimal

Bună ziua, Stimate site-ul de cititoare blog. Astăzi vă vom vorbi despre locul în care provin Cracoyarbra și în programe, care există codificări text și care dintre ele trebuie utilizate. Să luăm în detaliu istoria dezvoltării lor, variind de la ASCII de bază, precum și de versiunile sale extinse de CP866, KOI8-R, Windows 1251 și terminând cu codurile moderne ale consorțiului Unicode UTF 16 și 8.

Cineva pe care aceste informații le poate părea inutil, dar ați ști cât de multe întrebări vin la mine exact în legătură cu fisurile (fără a citi un set de caractere). Acum voi avea ocazia să-i trimit pe toată lumea în textul acestui articol și să-ți caut în mod independent piscinele. Ei bine, pregătiți-vă să absorbiți informațiile și să încercați să monitorizați narațiunea.

ASCII - codarea textului latizei de bază

Dezvoltarea codificărilor de text apare simultan cu formarea industriei IT și în acest timp au avut timp să se supună unor schimbări destul de puține. Din punct de vedere istoric, totul a început cu o pronunție destul de dăunătoare a EBCDIC, care a făcut posibilă codificarea literelor alfabetului latin, numerelor arabe și semne de punctuație cu simboluri de control.

Dar totuși punctul de plecare pentru dezvoltarea codificărilor text moderne ar trebui considerat un faimos ASCII. (Codul standard american pentru schimbul de informații, care în limba rusă este de obicei pronunțat ca "aski"). Acesta descrie primele 128 de caractere din cele mai frecvent utilizate de utilizatorii de limbă engleză -, numerele arabe și semne de punctuație.

Chiar și în aceste 128 de caractere descrise în ASCII, unele simboluri de serviciu au fost zdrobite de paranteze, laturi, asteriscuri etc. De fapt, tu o poți vedea:

Aceste 128 de caractere din versiunea inițială a ASCII au devenit standard, iar în orice altă codificare veți întâlni cu siguranță că vor fi în așa fel.

Dar faptul că este faptul că, cu ajutorul unui octet al informațiilor, puteți codifica 128, dar până la 256 de valori diferite (de două ori până la gradul opt este egal cu 256), astfel încât a apărut o gamă întreagă după versiunea de bază a Aska. coduri avansate ASCII.În plus față de 128 de semne principale, a fost, de asemenea, posibilă codificarea simbolurilor naționale de codificare (de exemplu, rusă).

Aici, probabil, merită mai mult despre sistemul numeric utilizat în descriere. În primul rând, după cum știți totul, computerul funcționează numai cu numere într-un sistem binar, și anume cu zerouri și unități ("Boulev Algebra", dacă cineva a avut loc la Institut sau la școală). Fiecare dintre acestea este o încetare la o diplomă, începând cu zero și la două în al șaptelea:

Nu este greu de înțeles că toate combinațiile posibile de zerouri și unități într-un astfel de design pot fi doar 256. Traduceți numărul din sistemul binar în zecimal este destul de simplu. Este necesar să se plieze pur și simplu toate gradele de mai sus pe care o reprezintă.

În exemplul nostru, se dovedește 1 (2 la gradul de zero) plus 8 (două la grade 3), plus 32 (de două ori în gradul al cincilea), plus 64 (în al șaselea), plus 128 (în al șaptelea) . Total primește 233 într-un sistem de numere zecimale. După cum puteți vedea, totul este foarte simplu.

Dar dacă vă uitați la masă cu caractere ASCII, veți vedea că acestea sunt prezentate în codarea hexazecimală. De exemplu, "asteriscul" corespunde paradisului unui număr hexazecimal 2a. Probabil, știți că într-un sistem de număr hexazecimal, literele latine de la A (Mediu TEN) la F (înseamnă cincisprezece) sunt folosite într-un sistem numeric hexazecimal.

Ei bine, deci pentru traduceți numerele binare în hexazecimal Recurge la următorul mod simplu și vizual. Fiecare octet de informații este rupt în două părți de patru biți, așa cum se arată în captura de ecran de mai sus. Asa de În fiecare jumătate a octetului, codul binar poate fi codificat numai pentru șaisprezece valori (două în gradul al patrulea), care poate fi ușor reprezentat de hexazecimal.

Mai mult, în jumătatea stângă a octetului, va fi necesar să se ia în considerare din nou măsura din zero și nu așa cum se arată în captura de ecran. Ca rezultat, prin computere non-bune, obținem că numărul E9 este codificat în captura de ecran. Sper că cursul raționamentului meu și solidificarea acestui rebus ați fost de înțeles. Ei bine, acum vom continua, vorbim de fapt despre codarea textului.

Versiuni extinse ale lui AKI - CP866 și Koi8-R codificare cu pseudograph

Deci, am început să vorbim despre ASCII, care a fost ca un punct de plecare pentru dezvoltarea tuturor codificărilor moderne (Windows 1251, Unicode, UTF 8).

Inițial, a fost pus doar 128 de semne ale alfabetului latin, numerele arabe și altceva acolo, dar în versiunea extinsă a fost posibilă utilizarea tuturor celor 256 de valori care pot fi codificate într-o singură informație pate. Acestea. O oportunitate de a adăuga simboluri ale literelor limbii lui la ASHA.

Aici va fi necesar să fie distras din nou să clarificați - de ce aveți nevoie de codificare texte și de ce este atât de important. Caracterele de pe ecranul calculatorului dvs. sunt formate pe baza a două lucruri - seturi de formulare vectoriale (reprezentări) de toate tipurile de caractere (sunt în fișiere CO) și cod care vă permite să scoateți acest set de forme vectoriale ( Fișier de font) Este caracterul care urmează să fie introdus în locul potrivit.

Este clar că fonturile sunt responsabile de formularele vectoriale, dar sistemul de operare și programele utilizate în acesta sunt responsabile pentru codificare. Acestea. Orice text de pe computer va fi un set de octeți din fiecare dintre care un singur simbol al acestui text este codificat.

Programul care afișează acest text pe ecran (editor de text, browser etc.), când parsarea codului, citește codificarea următorului semn și căutări pentru formularul vectorial corespunzător dosarul dorit Fontul care este conectat pentru a afișa acest document text. Totul este simplu și trite.

Astfel, pentru a codifica orice simbol de care avem nevoie (de exemplu, de la alfabetul național), trebuie completate două condiții - forma vectorială a acestui semn ar trebui să fie în fontul utilizat și acest simbol ar putea fi codificat în codificările extinse ASCII într-un byte . Prin urmare, există o mulțime de astfel de opțiuni. Numai pentru codificarea simbolurilor limbii rusești există mai multe soiuri de ascensoare extinse.

De exemplu, a apărut inițial CP866.În care a fost posibilă utilizarea simbolurilor alfabetului rus și a fost o versiune extinsă a ASCII.

Acestea. Partea sa superioară a coincis cu versiunea de bază a lui ASKI (128 simboluri latine, numere și chiar orice labuda), care este reprezentată pe screenshot ușor mai mare, dar deja partea inferioară a tabelului de codare CP866 a avut specificat în captura de ecran Puțin sub vizualizare și a permis să codifice alte 128 de semne (litere rusești și orice pseudografică):

Vedeți, în coloana din dreapta, numerele încep cu 8, pentru că Numerele de la 0 la 7 se referă la partea de bază a ASCII (a se vedea primul screenshot). Asa de Scrisoarea rusă "M" în CP866 va avea codul 9c (se află pe intersecția rândurilor corespunzătoare cu 9 și coloana cu un număr C într-un sistem de număr hexazecimal), care poate fi scris într-o singură informație de byte și dacă Există un font adecvat cu caractere rusești, această scrisoare fără probleme va fi afișată în text.

De unde a venit această cantitate psedografi în CP866.? Este tot faptul că această codificare a textului rusesc a fost dezvoltată în acele ani luminoși, când nu a existat o astfel de distribuție a sistemelor de operare grafică ca acum. Și în dosare și în operații de text similare, pseudografia a permis cel puțin să diversifice designul textelor și, prin urmare, se abundă cu CP866 și toate celelalte rânduri ale descărcării versiunilor extinse ale ASHA.

CP866 distribuită Compania IBM, dar în plus, au fost elaborate un număr de codificări pentru simbolurile limbii ruse, de exemplu, același tip (extins ASCII) poate fi atribuit Koi8-r.:

Principiul lucrării sale a rămas la fel ca CP866 descris mai târziu - fiecare simbol text este codificat de un singur octet. Screenshot-ul prezintă a doua jumătate a mesei Koi8-R, deoarece Prima repriză este pe deplin compatibilă cu baza ASUS, care este prezentată pe primul ecran din acest articol.

Printre caracteristicile codificării KOI8-R, se poate observa că literele ruse din tabelul său nu sunt în ordine alfabetică, cum ar fi aceasta, de exemplu, făcută în CP866.

Dacă vă uitați la primul screenshot (partea de bază, care intră în toate codificările extinse), observați că în KOI8-R, literele ruse sunt situate în aceleași tabele ale tabelului ca literele alfabetului latin din prima parte a masa. Acest lucru a fost făcut pentru comoditatea de a trece de la simbolurile rusești în latină prin aruncarea unui singur bit (două în gradul al șaptelea sau 128).

Windows 1251 - O versiune modernă a ASCII și de ce se scot backerii

Dezvoltarea ulterioară a codificărilor de text se datorează faptului că sistemele de operare grafice și necesitatea utilizării pseudografelor în ele au câștigat popularitate. Ca rezultat, a apărut un grup întreg, care, la esența lor, a fost încă versiuni avansate ale lui ASTI (un singur simbol text este codificat cu o singură debit de informații), dar fără a folosi caractere pseudografice.

Ei au tratat așa-numita codificare ANSI, care au fost dezvoltate de Institutul American de Standardizare. Numele chirilic a fost folosit în continuare în cea de-adirecție pentru o opțiune cu sprijinul limbii ruse. Un exemplu de un astfel de exemplu.

Acesta a fost favorabil diferit de CP866 și KOI8-R utilizat anterior, în care locul personajelor pseudografică a luat simbolurile lipsă ale tipografiei ruse (semnul descrescător), precum și simbolurile utilizate în apropierea lui Rusia slavică Limbi (ucrainene, Belarus, etc.):

Din cauza acestei abundențe a codificărilor limbii ruse, producătorii de fonturi și producători software. El a apărut în mod constant o durere de cap, și cu tine, dragi cititori, de multe ori cele mai notorii krakoyabry.Când confuzia a fost predată cu versiunea utilizată în text.

Foarte des au ieșit la trimiterea și primirea de mesaje e-mailCeea ce a cauzat crearea de mese transversale foarte complexe, care, de fapt, nu au putut rezolva această problemă în rădăcină și adesea utilizatorii pentru corespondență au fost folosiți pentru a evita krakozimele notorii atunci când se utilizează codificări ruse de astfel de CP866, KOI8-R sau Windows 1251.

În esență, krakozyabry, împărtășind în loc de textul rusesc, au fost rezultatul utilizare incorectă Codare din această limbăcare nu corespundea celui în care a fost codificat mesaj text. Inițial.

Să presupunem că simbolurile codificate cu CP866, încercați să afișați utilizând tabelul de cod Windows 1251, apoi aceste cele mai crăpate (set de caractere fără sens) și ieșiți, înlocuind complet textul mesajului.

O situație similară se întâmplă foarte des la, forumuri sau bloguri, când textul cu caractere rusești din greșeală nu este salvat în această codificare care este utilizată pe site-ul implicit sau nu în acest sens editor de textcare adaugă la codul Sebestin nu este vizibil la ochiul liber.

În cele din urmă, o astfel de situație cu numeroase codificări și cranberamuri constante de crawlere, mulți obosiți, au fost premise pentru crearea unei noi variații universale, care ar fi înlocuit toate existente și rezolvate, în cele din urmă, la rădăcina problemei cu apariția nu texte citite. În plus, a existat o problemă a limbilor chineze similare, unde simbolurile limbii au fost mult mai mult de 256.

Unicode (Unicode) - Coduri universale UTF 8, 16 și 32

Aceste mii de semne ale grupului lingvistic din Asia de Sud-Est nu au putut fi descrise într-o singură informație Pape care a fost alocată pentru codarea personajelor în versiunile ASCII avansate. Ca rezultat, a fost creat un consorțiu numit Unicode (Consorțiu Unicode - Unicode) în colaborarea multor lideri IT ai industriei (cei care produc un software care codifică fierul, care creează fonturi) care erau interesați de apariția unui text universal care codifică.

Prima variație publicată sub auspiciile consorțiului Unicode a fost UTF 32.. Cifra din numele codării înseamnă numărul de biți utilizați pentru a codifica un simbol. 32 de biți sunt 4 octeți de informații care vor fi necesare pentru a codifica un singur semn în noua codificare UTF universală.

Ca rezultat, același fișier cu textul codificat în versiunea extinsă a ASCII și UTF-32 va avea dimensiunea (cântărește) de patru ori mai mult. Este rău, dar acum avem ocazia de a codifica numărul de semne egale cu două până la treizeci de grade secunde, cu ajutorul UTF ( miliarde de caractere.care va acoperi orice valoare reală cu o marjă colosală).

Dar multe țări cu limbile Grupului european au un număr mare de semne de utilizat în codificare și nu a fost nevoie, totuși, atunci când se utilizează UTF-32, acestea nu au primit o creștere de patru ori greutate documente textCa urmare, o creștere a volumului traficului pe Internet și a volumului datelor stocate. Aceasta este o mulțime și nimeni nu și-ar putea permite astfel de deșeuri.

Ca urmare a dezvoltării Unicode a apărut UTF-16.care sa dovedit a fi atât de reușită, care a fost adoptată în mod implicit ca un spațiu de bază pentru toate personajele pe care le folosim. Utilizează doi octeți pentru a codifica un semn. Să vedem cum arată acest lucru.

În sistemul de operare Windows, puteți trece de-a lungul căii "Start" - "Programe" - "Standard" - "Service" - "Tabel de caractere". Ca rezultat, masa se deschide cu formulare vectoriale Toate instalate în sistemul dvs. de font. Dacă alegeți în "parametri suplimentari" un set de caractere Unicode, puteți vedea pentru fiecare font separat întreaga gamă de caractere incluse în acesta.

Apropo, făcând clic pe oricare dintre ele, îl puteți vedea pe două codul în format UTF-16constând din patru cifre hexazecimale:

Câte caractere pot fi codificate în UTF-16 folosind 16 biți? 65 536 (două până la șaisprezece), iar acest număr a fost luat pentru spațiul de bază din Unicode. În plus, există modalități de a codifica cu el și aproximativ două milioane de caractere, dar se limitează la spațiul extins într-un milion de simboluri text.

Dar chiar și această versiune de succes a codificării lui Unicode nu a adus multă satisfacție celor care au scris, de exemplu, programele numai pe limba englezaPentru aceștia, după trecerea de la versiunea extinsă a ASCII la UTF-16, greutatea documentelor a crescut de două ori (un octet pe simbol în ASTI și doi octeți pe același simbol în UTF-16).

Asta e tocmai pentru a satisface toată lumea și tot în consorțiul Unicode a fost decis să vină codând lungimea variabilă. Ea a fost numită UTF-8. În ciuda celor opt din titlu, are într-adevăr o lungime variabilă, adică. Fiecare simbol text poate fi codificat într-o secvență de unul la șase octeți.

În practică, UTF-8 utilizează doar o gamă de la unul la patru octeți, deoarece nu există nimic nici măoretic posibil să se supună nimic celor patru octeți ai codului. Toate semnele latine sunt codificate într-un octet, precum și în vechiul ASCII.

Ceea ce este demn de remarcat, în cazul codificării numai latinei, chiar și acele programe care nu înțeleg Unicode vor citi încă ceea ce este codificat în UTF-8. Acestea. Partea de bază a lui ASHA a trecut pur și simplu la acest consorțiu de la Unicode.

Semnele chirilice din UTF-8 sunt codificate în doi octeți și, de exemplu, georgiană - în trei octeți. Consorțiul Unicode după crearea UTF 16 și 8 a decis problema principală - acum avem În fonturi există un spațiu unic de cod. Și acum producătorii lor rămân doar pe baza forțelor și oportunităților lor de ao umple cu forme vectoriale de simboluri de text. Acum în seturi chiar.

În tabelul de simbol de mai jos, se poate observa că diferite fonturi suportă un număr diferit de caractere. Unele simboluri ale fonturilor Unicode pot cântări foarte bine. Dar acum nu se disting prin faptul că sunt create pentru diferite codificări, dar de faptul că producătorul de fonturi a umplut sau nu a umplut spațiul unic de cod de către acelea sau alte forme vectoriale până la capăt.

Krakoyabry în loc de scrisori ruse - cum să remedieze

Să vedem acum cum apare textul Crakozimabe în loc de text sau, cu alte cuvinte, cum este selectată codarea corectă pentru textul rusesc. De fapt, este setat în programul în care creați sau editați același text sau cod folosind fragmente de text.

Pentru a edita și a crea fișiere text Personal, folosesc foarte bine, în opinia mea ,. Cu toate acestea, poate evidenția sintaxa încă o sută de limbi de programare și de marcare, și are, de asemenea, capacitatea de a se extinde cu pluginurile. Citit revizuire detaliată Acest program minunat conform link-ului.

În meniul Top Notepad ++, există un element "codificare", unde veți avea capacitatea de a converti o opțiune existentă la una care este utilizată pe site-ul dvs. implicit:

În cazul unui site din Joomla 1.5 și mai sus, precum și în cazul unui blog pe WordPress, ar trebui să alegeți opțiunea pentru a evita apariția Krakoyar UTF 8 fără BOM. Care este prefixul BOM?

Faptul este că atunci când codarea ETF-16 a fost dezvoltată, din anumite motive a decis să fixeze un astfel de lucru ca abilitatea de a înregistra un cod de simbol, atât în \u200b\u200bsecvența directă (de exemplu, 0A15), cât și în invers (150a) . Și pentru ca programele să înțeleagă ce coduri de citire a secvenței și a fost inventată BOM. (Marcajul de octeți sau, cu alte cuvinte, semnătura), care a fost exprimată în adăugarea a trei octeți suplimentari la începutul documentelor.

În codificarea UTF-8, nu au existat nici un BOM în consorțiul Unicode și, prin urmare, adăugând semnătură (cei mai cunoscuți trei octeți suplimentari la începutul documentului) Unele programe pur și simplu împiedică citirea codului. Prin urmare, întotdeauna, când salvăm fișiere în UTF, trebuie să selectați o opțiune fără BOM (fără semnătură). Deci sunteți în avans mustrați-vă de la crackering.

Ceea ce este demn de remarcat, unele programe în Windows nu știu cum să facă acest lucru (nu puteți salva text în UTF-8 fără BOM), de exemplu, aceleași ferestre notebook notive. Salvează documentul în UTF-8, dar încă adaugă semnătura la început (trei octeți suplimentari). Mai mult, acești octeți vor fi întotdeauna la fel - citiți codul în secvență directă. Dar pe servere, din cauza lucrurilor mici, poate exista o problemă - Crackels va ieși afară.

Prin urmare, în nici un caz nu utilizați ferestrele obișnuite de notebook Pentru a edita documente ale site-ului dvs., dacă nu doriți aspectul Krakoyarbra. Consider că cea mai recentă și cea mai ușoară opțiune pentru editorul Notepad ++ deja menționat, care practic nu are dezavantaje și constă în unul dintre avantaje.

În Notepad ++ Când alegeți o codificare, veți avea capacitatea de a converti textul la codarea UCS-2, care este foarte aproape de standardul Unicode în esență. De asemenea, într-un non-tip poate fi codificat în ANSI, adică Cu referire la limba rusă, aceasta va fi deja descrisă de noi chiar deasupra Windows 1251. De unde provin aceste informații?

Ea este scrisă în registrul tău sistem de operare Windows este ceea ce codifică alegerea în cazul ANSI, ce să alegeți în cazul OEM (pentru limba rusă va fi CP866). Dacă instalați o altă limbă implicită pe computer, atunci aceste codificări vor fi înlocuite cu ANSI sau OEM descărcare pentru aceeași limbă.

După tine în Notepad ++, salvați documentul în codarea de care aveți nevoie sau deschideți un document de pe site pentru a edita, apoi în colțul din dreapta jos al editorului vă puteți vedea numele:

Pentru a evita Cracoyarbrov.Cu excepția faptului că acțiunile descrise mai sus vor fi utile pentru înregistrarea în capacul său cod sursa Toate paginile site-ului informații despre această codificare, astfel încât serverul sau gazda locală să nu apară.

În general, în toate limbile marcajului hipertext, altele decât HTML, se utilizează un anunț XML special, care specifică codarea textului.

Înainte de a începe să dezasamblați codul, browserul va afla ce versiune este utilizată și cum trebuie exact să interpretați codurile personajelor acestei limbi. Dar ceea ce este demn de remarcat, în cazul în care salvați documentul în Unicode implicit, această declarație XML poate fi omisă (codarea va fi considerată UTF-8, dacă nu există nici un BOM sau UTF-16 dacă există un BOM).

În cazul unui document limba HTML. Pentru a specifica codificarea utilizată meta elementcare este prescris între eticheta capului de deschidere și închidere:

... ...

Această intrare este destul de diferită de cea acceptată B, dar corespunde complexului nou introdus lent prin standardul HTML 5 și va fi absolut înțeles corect de browserele utilizate în prezent.

În teorie, elementul meta cu indicație codificarea HTML Documentul va fi mai bine de pus cât mai mare posibil în antetul doculuiAstfel încât, la momentul întâlnirii din textul primului semn să nu fie din ANSI de bază (care citiți întotdeauna întotdeauna și în orice variație), browserul trebuie să aibă deja informații despre cum să interpreteze codurile acestor caractere.

Multă baftă! La întâlnirile ambigue pe site-ul web al blogului

S-ar putea să fiți interesat

Ce Adresele URLCare este diferența dintre absolut și absolut și link-uri relative pentru site.
OpenServer - Modern. server local. și un exemplu de utilizare a acesteia pentru a instala WordPress pe un computer
Ceea ce este chmod, care accesează drepturile de atribuire a fișierelor și a dosarelor (777, 755, 666) și cum să facă prin PHP
Căutați Yandex pe site și magazin online

Astăzi vă vom vorbi despre locul în care provin Cracoyarbra și în programe, care există codificări text și care dintre ele trebuie utilizate. Să luăm în detaliu istoria dezvoltării lor, variind de la ASCII de bază, precum și versiunile extinse ale CP866, KOI8-R, Windows 1251 și terminând cu coduri moderne ale consorțiului Unicode UTF 16 și 8. Cuprins: Cineva pe care aceste informații le poate părea inutil, dar ați ști cât de multe întrebări vin la mine exact în legătură cu fisurile (fără a citi un set de caractere). Acum voi avea ocazia să-i trimit pe toată lumea în textul acestui articol și să-ți caut în mod independent piscinele. Ei bine, pregătiți-vă să absorbiți informațiile și să încercați să monitorizați narațiunea.

ASCII - codarea textului latizei de bază

Dezvoltarea codificărilor de text apare simultan cu formarea industriei IT și în acest timp au avut timp să se supună unor schimbări destul de puține. Din punct de vedere istoric, totul a început cu o pronunție destul de dăunătoare a EBCDIC, care a făcut posibilă codificarea literelor alfabetului latin, numerelor arabe și semne de punctuație cu simboluri de control. Dar totuși punctul de plecare pentru dezvoltarea codificărilor text moderne ar trebui considerat un faimos ASCII. (Codul standard american pentru schimbul de informații, care în limba rusă este de obicei pronunțat ca "aski"). Acesta descrie primele 128 de caractere de la cei mai frecvent utilizați utilizatori de limbă engleză - litere latine, numere arabe și semne de punctuație. Chiar și în aceste 128 de caractere descrise în ASCII, unele simboluri de serviciu au fost zdrobite de paranteze, laturi, asteriscuri etc. De fapt, tu o poți vedea:
Aceste 128 de caractere din versiunea inițială a ASCII au devenit standard, iar în orice altă codificare veți întâlni cu siguranță că vor fi în așa fel. Dar faptul că este faptul că, cu ajutorul unui octet al informațiilor, puteți codifica 128, dar până la 256 de valori diferite (de două ori până la gradul opt este egal cu 256), astfel încât a apărut o gamă întreagă după versiunea de bază a Aska. coduri avansate ASCII.În plus față de 128 de semne principale, a fost, de asemenea, posibilă codificarea simbolurilor naționale de codificare (de exemplu, rusă). Aici, probabil, merită mai mult despre sistemul numeric utilizat în descriere. În primul rând, după cum știți totul, computerul funcționează numai cu numere într-un sistem binar, și anume cu zerouri și unități ("Boulev Algebra", dacă cineva a avut loc la Institut sau la școală). Un octet constă din opt biți, fiecare dintre acestea fiind un decend la o diplomă, începând cu zero și la două în al șaptelea:
Nu este greu de înțeles că toate combinațiile posibile de zerouri și unități într-un astfel de design pot fi doar 256. Traduceți numărul din sistemul binar în zecimal este destul de simplu. Este necesar să se plieze pur și simplu toate gradele de mai sus pe care o reprezintă. În exemplul nostru, se dovedește 1 (2 la gradul de zero) plus 8 (două la grade 3), plus 32 (de două ori în gradul al cincilea), plus 64 (în al șaselea), plus 128 (în al șaptelea) . Total primește 233 într-un sistem de numere zecimale. După cum puteți vedea, totul este foarte simplu. Dar dacă vă uitați la masă cu caractere ASCII, veți vedea că acestea sunt prezentate în codarea hexazecimală. De exemplu, "asteriscul" corespunde paradisului unui număr hexazecimal 2a. Probabil, știți că într-un sistem de număr hexazecimal, literele latine de la A (Mediu TEN) la F (înseamnă cincisprezece) sunt folosite într-un sistem numeric hexazecimal. Ei bine, deci pentru traduceți numerele binare în hexazecimal Recurge la următorul mod simplu și vizual. Fiecare octet de informații este rupt în două părți de patru biți, așa cum se arată în captura de ecran de mai sus. Asa de În fiecare jumătate a octetului, codul binar poate fi codificat numai pentru șaisprezece valori (două în gradul al patrulea), care poate fi ușor reprezentat de hexazecimal. Mai mult, în jumătatea stângă a octetului, va fi necesar să se ia în considerare din nou măsura din zero și nu așa cum se arată în captura de ecran. Ca rezultat, prin computere non-bune, obținem că numărul E9 este codificat în captura de ecran. Sper că cursul raționamentului meu și solidificarea acestui rebus ați fost de înțeles. Ei bine, acum vom continua, vorbim de fapt despre codarea textului.

Versiuni extinse ale lui AKI - CP866 și Koi8-R codificare cu pseudograph

Deci, am început să vorbim despre ASCII, care a fost ca un punct de plecare pentru dezvoltarea tuturor codificărilor moderne (Windows 1251, Unicode, UTF 8). Inițial, a fost pus doar 128 de semne ale alfabetului latin, numerele arabe și altceva acolo, dar în versiunea extinsă a fost posibilă utilizarea tuturor celor 256 de valori care pot fi codificate într-o singură informație pate. Acestea. O oportunitate de a adăuga simboluri ale literelor limbii lui la ASHA. Aici va fi necesar să fie distras din nou să clarificați - de ce aveți nevoie de codare text Și de ce este atât de important. Simbolurile de pe ecranul calculatorului dvs. se formează pe baza a două lucruri - set de formulare vectoriale (prezentări) de toate tipurile de caractere (acestea sunt în fișiere cu fonturi care sunt instalate pe computer) și cod care vă permite să scoateți afară Acest set de formulare vectoriale (fișier font) personajul pe care doriți să îl introduceți în locul potrivit. Este clar că fonturile sunt responsabile de formularele vectoriale, dar sistemul de operare și programele utilizate în acesta sunt responsabile pentru codificare. Acestea. Orice text de pe computer va fi un set de octeți din fiecare dintre care un singur simbol al acestui text este codificat. Programul care afișează acest text pe ecran (editor de text, browser etc.), când analizați codul, acesta citește codarea următorului semn și căutări pentru formularul vectorial corespunzător la acesta în fișierul de font dorit care este conectat la Afișați acest document text. Totul este simplu și trite. Astfel, pentru a codifica orice simbol de care avem nevoie (de exemplu, de la alfabetul național), trebuie completate două condiții - forma vectorială a acestui semn ar trebui să fie în fontul utilizat și acest simbol ar putea fi codificat în codificările extinse ASCII într-un byte . Prin urmare, există o mulțime de astfel de opțiuni. Numai pentru codificarea simbolurilor limbii rusești există mai multe soiuri de ascensoare extinse. De exemplu, a apărut inițial CP866.În care a fost posibilă utilizarea simbolurilor alfabetului rus și a fost o versiune extinsă a ASCII. Acestea. Partea sa superioară a coincis cu versiunea de bază a lui ASKI (128 simboluri latine, numere și chiar orice labuda), care este reprezentată pe screenshot ușor mai mare, dar deja partea inferioară a tabelului de codare CP866 a avut specificat în captura de ecran Puțin sub vizualizare și a permis să codifice alte 128 de semne (litere rusești și orice pseudografică):
Vedeți, în coloana din dreapta, numerele încep cu 8, pentru că Numerele de la 0 la 7 se referă la partea de bază a ASCII (a se vedea primul screenshot). Asa de Scrisoarea rusă "M" în CP866 va avea codul 9c (se află pe intersecția rândurilor corespunzătoare cu 9 și coloana cu un număr C într-un sistem de număr hexazecimal), care poate fi scris într-o singură informație de byte și dacă Există un font adecvat cu caractere rusești, această scrisoare fără probleme va fi afișată în text. De unde a venit această cantitate psedografi în CP866.? Este tot faptul că această codificare a textului rusesc a fost dezvoltată în acele ani luminoși, când nu a existat o astfel de distribuție a sistemelor de operare grafică ca acum. Și în dosare și în operații de text similare, pseudografia a permis cel puțin să diversifice designul textelor și, prin urmare, se abundă cu CP866 și toate celelalte rânduri ale descărcării versiunilor extinse ale ASHA. CP866 distribuită Compania IBM, dar în plus, au fost elaborate un număr de codificări pentru simbolurile limbii ruse, de exemplu, același tip (extins ASCII) poate fi atribuit Koi8-r.:
Principiul lucrării sale a rămas la fel ca CP866 descris mai târziu - fiecare simbol text este codificat de un singur octet. Screenshot-ul prezintă a doua jumătate a mesei Koi8-R, deoarece Prima repriză este pe deplin compatibilă cu baza ASUS, care este prezentată pe primul ecran din acest articol. Printre caracteristicile codificării KOI8-R, se poate observa că literele ruse din tabelul său nu sunt în ordine alfabetică, cum ar fi aceasta, de exemplu, făcută în CP866. Dacă vă uitați la primul screenshot (partea de bază, care intră în toate codificările extinse), observați că în KOI8-R, literele ruse sunt situate în aceleași tabele ale tabelului ca literele alfabetului latin din prima parte a masa. Acest lucru a fost făcut pentru comoditatea de a trece de la simbolurile rusești în latină prin aruncarea unui singur bit (două în gradul al șaptelea sau 128).

Windows 1251 - O versiune modernă a ASCII și de ce se scot backerii

Dezvoltarea ulterioară a codificărilor de text se datorează faptului că sistemele de operare grafice și necesitatea utilizării pseudografelor în ele au câștigat popularitate. Ca rezultat, a apărut un grup întreg, care, la esența lor, a fost încă versiuni avansate ale lui ASTI (un singur simbol text este codificat cu o singură debit de informații), dar fără a folosi caractere pseudografice. Ei au tratat așa-numita codificare ANSI, care au fost dezvoltate de Institutul American de Standardizare. Numele chirilic a fost folosit în continuare în cea de-adirecție pentru o opțiune cu sprijinul limbii ruse. Exemplu, astfel de pot servi Windows 1251.. Acesta a fost favorabil diferit de CP866 și KOI8-R utilizat anterior, în care locul personajelor pseudografică a luat simbolurile lipsă ale tipografiei ruse (semnul descrescător), precum și simbolurile utilizate în apropierea lui Rusia slavică Limbi (ucrainene, Belarus, etc.):
Din cauza unei astfel de abundențe de codificare a limbii ruse, producătorii de fonturi și producători de software au avut în mod constant o durere de cap, iar cu tine, dragi cititori, adesea au primit cele mai notorii krakoyabry.Când confuzia a fost predată cu versiunea utilizată în text. Foarte des au ieșit la trimiterea și primirea de mesaje prin e-mail, ceea ce a dus la crearea de tabele de distribuție foarte complexe, care, de fapt, nu au putut rezolva această problemă în rădăcină, iar utilizatorii de corespondență au fost utilizați de scrisori latine Pentru a evita krakozimele notorii, utilizarea codificărilor rusești de astfel de CP866, KOI8-R sau Windows 1251. În esență, Cracoyarbra, împărtășind în loc de textul rus, au fost rezultatul utilizării incorecte a codificării acestei limbi, care nu corespundea cel în care mesajul text a fost codificat inițial. Să presupunem că simbolurile codificate cu CP866, încercați să afișați utilizând tabelul de cod Windows 1251, apoi aceste cele mai crăpate (set de caractere fără sens) și ieșiți, înlocuind complet textul mesajului.
O situație similară se întâmplă foarte des la crearea și configurarea site-urilor, a forumurilor sau a blogurilor, atunci când textul cu caractere rusești din greșeală nu este salvat în aceeași codificare care este utilizată pe site-ul implicit sau nu în editorul de text, care adaugă la Codul Sebestin nu este vizibil ochiul liber. În cele din urmă, o astfel de situație cu numeroase codificări și cranberamuri constante de crawlere, mulți obosiți, au fost premise pentru crearea unei noi variații universale, care ar fi înlocuit toate existente și rezolvate, în cele din urmă, la rădăcina problemei cu apariția nu texte citite. În plus, a existat o problemă a limbilor chineze similare, unde simbolurile limbii au fost mult mai mult de 256.

Unicode (Unicode) - Coduri universale UTF 8, 16 și 32

Aceste mii de semne ale grupului lingvistic din Asia de Sud-Est nu au putut fi descrise într-o singură informație Pape care a fost alocată pentru codarea personajelor în versiunile ASCII avansate. Ca rezultat, a fost creat un consorțiu numit Unicode (Consorțiu Unicode - Unicode) în colaborarea multor lideri IT ai industriei (cei care produc un software care codifică fierul, care creează fonturi) care erau interesați de apariția unui text universal care codifică. Prima variație publicată sub auspiciile consorțiului Unicode a fost UTF 32.. Cifra din numele codării înseamnă numărul de biți utilizați pentru a codifica un simbol. 32 de biți sunt 4 octeți de informații care vor fi necesare pentru a codifica un singur semn în noua codificare UTF universală. Ca rezultat, același fișier cu textul codificat în versiunea extinsă a ASCII și UTF-32 va avea dimensiunea (cântărește) de patru ori mai mult. Este rău, dar acum avem ocazia de a codifica numărul de semne egale cu două până la treizeci de grade secunde, cu ajutorul UTF ( miliarde de caractere.care va acoperi orice valoare reală cu o marjă colosală). Dar multe țări cu limbile Grupului european au un număr mare de semne de utilizat în codificare și nu a fost nevoie, totuși, atunci când se utilizează UTF-32, nu au primit o creștere de patru ori În greutatea documentelor text și, ca urmare, o creștere a datelor pe Internet și a datelor stocate de volum. Aceasta este o mulțime și nimeni nu și-ar putea permite astfel de deșeuri. Ca urmare a dezvoltării Unicode a apărut UTF-16.care sa dovedit a fi atât de reușită, care a fost adoptată în mod implicit ca un spațiu de bază pentru toate personajele pe care le folosim. Utilizează doi octeți pentru a codifica un semn. Să vedem cum arată acest lucru. În sistemul de operare Windows, puteți trece de-a lungul căii "Start" - "Programe" - "Standard" - "Service" - "Tabel de caractere". Ca rezultat, o masă se deschide cu forme vectoriale ale tuturor instalate în fonturile dvs. Dacă alegeți în "parametri suplimentari" un set de caractere Unicode, puteți vedea pentru fiecare font separat întreaga gamă de caractere incluse în acesta. Apropo, făcând clic pe oricare dintre ele, îl puteți vedea pe două codul în format UTF-16constând din patru cifre hexazecimale:
Câte caractere pot fi codificate în UTF-16 folosind 16 biți? 65 536 (două până la șaisprezece), iar acest număr a fost luat pentru spațiul de bază din Unicode. În plus, există modalități de a codifica cu el și aproximativ două milioane de caractere, dar se limitează la spațiul extins într-un milion de simboluri text. Dar chiar și această versiune de succes a codării lui Unicode nu a adus multă satisfacție cu cei care au scris, de exemplu, programe numai în limba engleză, deoarece au, după trecerea de la versiunea extinsă a ASCII la UTF-16, greutatea documentelor a crescut de două ori (un octet pe un singur simbol în ASKI și doi octeți pe același simbol în UTF-16). Asta e tocmai pentru a satisface toată lumea și tot în consorțiul Unicode a fost decis. veniți cu codarea lungime variabilă. Ea a fost numită UTF-8. În ciuda celor opt din titlu, are într-adevăr o lungime variabilă, adică. Fiecare simbol text poate fi codificat într-o secvență de unul la șase octeți. În practică, UTF-8 utilizează doar o gamă de la unul la patru octeți, deoarece nu există nimic nici măoretic posibil să se supună nimic celor patru octeți ai codului. Toate semnele latine sunt codificate într-un octet, precum și în vechiul ASCII. Ceea ce este demn de remarcat, în cazul codificării numai latinei, chiar și acele programe care nu înțeleg Unicode vor citi încă ceea ce este codificat în UTF-8. Acestea. Partea de bază a lui ASHA a trecut pur și simplu la acest consorțiu de la Unicode. Semnele chirilice din UTF-8 sunt codificate în doi octeți și, de exemplu, georgiană - în trei octeți. Consorțiul Unicode după crearea UTF 16 și 8 a rezolvat problema principală - acum avem în fonturi Există un spațiu unic de cod. Și acum producătorii lor rămân doar pe baza forțelor și oportunităților lor de ao umple cu forme vectoriale de simboluri de text. În tabelul de simbol de mai jos, se poate observa că diferite fonturi suportă un număr diferit de caractere. Unele simboluri ale fonturilor Unicode pot cântări foarte bine. Dar acum nu se disting prin faptul că sunt create pentru diferite codificări, dar de faptul că producătorul de fonturi a umplut sau nu a umplut spațiul unic de cod de către acelea sau alte forme vectoriale până la capăt.

Krakoyabry în loc de scrisori ruse - cum să remedieze

Să vedem acum cum apare textul Crakozimabe în loc de text sau, cu alte cuvinte, cum este selectată codarea corectă pentru textul rusesc. De fapt, este setat în programul în care creați sau editați același text sau cod folosind fragmente de text. Pentru editarea și crearea fișierelor text, folosesc foarte bine, în opinia mea, editorul HTML și PHP Notepad ++. Cu toate acestea, poate evidenția sintaxa încă o sută de limbi de programare și de marcare, și are, de asemenea, capacitatea de a se extinde cu pluginurile. Citiți o prezentare detaliată a acestui program minunat sub link. În meniul Top Notepad ++, există un element "codificare", unde veți avea capacitatea de a converti o opțiune existentă la una care este utilizată pe site-ul dvs. implicit:
În cazul unui site din Joomla 1.5 și mai sus, precum și în cazul unui blog pe WordPress, ar trebui să alegeți opțiunea pentru a evita apariția Krakoyar UTF 8 fără BOM. Care este prefixul BOM? Faptul este că atunci când codarea ETF-16 a fost dezvoltată, din anumite motive a decis să fixeze un astfel de lucru ca abilitatea de a înregistra un cod de simbol, atât în \u200b\u200bsecvența directă (de exemplu, 0A15), cât și în invers (150a) . Și pentru ca programele să înțeleagă ce coduri de citire a secvenței și a fost inventată BOM. (Marcajul de octeți sau, cu alte cuvinte, semnătura), care a fost exprimată în adăugarea a trei octeți suplimentari la începutul documentelor. În codificarea UTF-8, nu au existat nici un BOM în consorțiul Unicode și, prin urmare, adăugând semnătură (cei mai cunoscuți trei octeți suplimentari la începutul documentului) Unele programe pur și simplu împiedică citirea codului. Prin urmare, întotdeauna, când salvăm fișiere în UTF, trebuie să selectați o opțiune fără BOM (fără semnătură). Deci sunteți în avans mustrați-vă de la crackering. Ceea ce este demn de remarcat, unele programe în Windows nu știu cum să facă acest lucru (nu puteți salva text în UTF-8 fără BOM), de exemplu, aceleași ferestre notebook notive. Salvează documentul în UTF-8, dar încă adaugă semnătura la început (trei octeți suplimentari). Mai mult, acești octeți vor fi întotdeauna la fel - citiți codul în secvență directă. Dar pe servere, din cauza lucrurilor mici, poate exista o problemă - Crackels va ieși afară. Prin urmare, în nici un caz nu utilizați ferestrele obișnuite de notebook Pentru a edita documente ale site-ului dvs., dacă nu doriți aspectul Krakoyarbra. Consider că cea mai recentă și cea mai ușoară opțiune pentru editorul Notepad ++ deja menționat, care practic nu are dezavantaje și constă în unul dintre avantaje. În Notepad ++ Când alegeți o codificare, veți avea capacitatea de a converti textul la codarea UCS-2, care este foarte aproape de standardul Unicode în esență. De asemenea, într-un non-tip poate fi codificat în ANSI, adică Cu referire la limba rusă, aceasta va fi deja descrisă de noi chiar deasupra Windows 1251. De unde provin aceste informații? Ea este scrisă în registrul camerei dvs. de operație sisteme Windows. - Ce codificare de a alege în cazul ANSI, ce să alegeți în cazul OEM (pentru limba rusă va fi CP866). Dacă instalați o altă limbă implicită pe computer, atunci aceste codificări vor fi înlocuite cu ANSI sau OEM descărcare pentru aceeași limbă. După tine în Notepad ++, salvați documentul în codarea de care aveți nevoie sau deschideți un document de pe site pentru a edita, apoi în colțul din dreapta jos al editorului vă puteți vedea numele: Pentru a evita Cracoyarbrov.În plus față de acțiunile descrise mai sus, va fi utilă înregistrarea în antetul codului sursă al tuturor paginilor informațiilor despre site-ul despre această codificare pentru ca serverul sau gazda locală să nu aibă loc. În general, în toate limbile marcajului hipertext, altele decât HTML, se utilizează un anunț XML special, care specifică codarea textului.< ? xml version= "1.0" encoding= "windows-1251" ? > Înainte de a începe să dezasamblați codul, browserul va afla ce versiune este utilizată și cum trebuie exact să interpretați codurile personajelor acestei limbi. Dar ceea ce este demn de remarcat, în cazul în care salvați documentul în Unicode implicit, această declarație XML poate fi omisă (codarea va fi considerată UTF-8, dacă nu există nici un BOM sau UTF-16 dacă există un BOM). În cazul unui document al limbii HTML pentru a specifica codarea utilizată meta elementcare este prescris între eticheta capului de deschidere și închidere: < head> . . . < meta charset= "utf-8" > . . . < / head> Această intrare este destul de diferită de cea adoptată în standardul din HTML 4.01, dar respectă pe deplin nou introdus lent cu standardul HTML 5 și va fi absolut corect înțeles de către orice browsere utilizate de cele utilizate în prezent. În teorie, elementul meta cu o indicație a codării HTML a documentului va fi mai bine de pus cât mai mare posibil în antetul doculuiAstfel încât, la momentul întâlnirii din textul primului semn să nu fie din ANSI de bază (care citiți întotdeauna întotdeauna și în orice variație), browserul trebuie să aibă deja informații despre cum să interpreteze codurile acestor caractere. Link la primul

Codificarea Koi8-R

ISO 8859-5 Codificare

ISO 8859-5

Codificarea alternativă

"Codificarea alternativă" - Bazat pe pagina CP437, unde toate simbolurile europene specifice din a doua jumătate sunt înlocuite cu chirilic, lăsând caractere pseudografice intacte. În consecință, acest lucru nu strică tipul de programe care utilizează ferestre text și oferă, de asemenea, utilizarea caracterelor chirilice în ele.

Din punct de vedere istoric, au existat multe opțiuni de codificare alternative, dar toate diferențele se referă numai la regiunea 0xF0 - 0xFF (240-255). Standardul final a fost codarea IBM CP866, a căror suport a fost adăugată la MS-DOS versiunea 6.22 (s-au folosit tot felul de fisuri "auto-fabricate". Codificarea alternativă este încă în viață și extrem de populară în mediul DOS și OS / 2 . În plus, această codificare este înregistrată nume B. sistemul de fișiere Gras. CP866 este încă utilizat în consola de spuse Systems Family Systems.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.
8. A 410. B 411. În 412. G 413. D 414. E 415. 416. S 417. Și 418. Th 419. K 41A. L 41b. M 41C. H 41D. O 41e. P 41F.
9. R 420. Cu 421. T 422. 423. F 424. X 425. C 426. H 427. W 428. Shch 429. Kommersant 42a. 42b. B 42C. E 42D. Yu 42e. Sunt 42f.
A. A 430. B 431. în 432. G 433. D 434. E 435. 2036. S 437. și 438. Th 439. La 43a. L 43b. M 43C. H 43D. Aproximativ 43e. P 43F.
B. ░ 2591 ▒ 2592 ▓ 2593 │ 2502 ┤ 2524 ╡ 2561 ╢ 2562 ╖ 2556 ╕ 2555 ╣ 2563 ║ 2551 ╗ 2557 ╝ 255D. ╜ 255C. ╛ 255b. ┐ 2510
C. └ 2514 ┴ 2534. ┬ 252C. ├ 251C. ─ 2500 ┼ 253C. ╞ 255e. ╟ 255f. ╚ 255a. ╔ 2554 ╩ 2569 ╦ 2566 ╠ 2560 ═ 2550 ╬ 256C. ╧ 2567
D. ╨ 2568 ╤ 2564 ╥ 2565 ╙ 2559 ╘ 2558 ╒ 2552 ╓ 2553 ╫ 256b. ╪ 256A. ┘ 2518 ┌ 250c. █ 2588 ▄ 2584 ▌ 258C. ▐ 2590 ▀ 2580
E. R 440. de la 441. T 442. la 443. F 444. X 445. C 446. H 447. SH 448. Shch 449. Kommersant 44a. S 44b. B 44C. E4d. Yu 44e. Sunt 44f.
F. E 301. ё 451. Є 404. є 454. «407. ● 457. Ў 40e. ў 45e. ° B0. ∙ 2219 · B7. √ 221a. № 2116 ¤ A4. ■ 25a0. A0.

Deci 8859-5 - Codificarea pe 8 biți din seria ISO-8859 pentru înregistrarea chirilică. În Rusia nu este aproape folosită. În general, ISO 8859-5 nu este o codificare foarte convenabilă, deoarece nu are multe dintre caracterele necesare, cum ar fi o linie (-), choke-copac (""), grade (°) etc.



.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.
8. 80 81 82 83 84 85 86 87 88 89 8A. 8b. 8c. 8 D. 8e. 8f.
9. 90 91 92 93 94 95 96 97 98 99 9a. 9b. 9c. 9d. 9e. 9f.
A. A0. E 301. € 402. Ѓ 403. Є 404. 145. І 406. «407. Ј 408. Љ 409. Њ 40a. Ћ 40b. Ќ 40c. ANUNȚ Ў 40e. Џ 40f.
B. A 410. B 411. În 412. G 413. D 414. E 415. 416. S 417. Și 418. Th 419. K 41A. L 41b. M 41C. H 41D. O 41e. P 41F.
C. R 420. Cu 421. T 422. 423. F 424. X 425. C 426. H 427. W 428. Shch 429. Kommersant 42a. 42b. B 42C. E 42D. Yu 42e. Sunt 42f.
D. A 430. B 431. în 432. G 433. D 434. E 435. 2036. S 437. și 438. Th 439. La 43a. L 43b. M 43C. H 43D. Aproximativ 43e. P 43F.
E. R 440. de la 441. T 442. la 443. F 444. X 445. C 446. H 447. SH 448. Shch 449. Kommersant 44a. S 44b. B 44C. E4d. Yu 44e. Sunt 44f.
F. № 2116 ё 451. 452. ѓ 453. є 454. 145. І 456. ● 457. ј 458. љ 459. њ 45A. ћ 45b. ќ 45C. § A7. ў 45e. џ 45f.

KOI-8 (codul de partajare a informațiilor, 8 biți), KOI8 - un standard de codificare a simbolului cu opt biți în domeniul informaticii. Proiectat pentru codarea literelor alfabetelor chirilice. Există, de asemenea, o versiune de șapte biți a versiunii codificatoare - KOI-7. KOI-7 și KOI-8 sunt descrise în GOST 19768-74 (acum invalid).

Dezvoltatorii KOI-8 au plasat simbolurile alfabetului rus în partea superioară a tabelului ASCII extins în așa fel încât pozițiile de caractere chirilice corespund analogilor lor fonetici în alfabetul englez din partea de jos a tabelului. Acest lucru înseamnă că, dacă în textul scris în KOI-8, pentru a elimina al optulea bit al fiecărui simbol, atunci se oprește un text "citit", deși este scris de simbolurile latine. De exemplu, cuvintele "Text rusesc" s-ar transforma în "Russkij tekst". Ca efect secundar, simbolurile chirilice s-au dovedit a fi aranjate în ordine alfabetică.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.
8. ─ 2500 │ 2502 ┌ 250c. ┐ 2510 └ 2514 ┘ 2518 ├ 251C. ┤ 2524 ┬ 252C. ┴ 2534. ┼ 253C. ▀ 2580 ▄ 2584 █ 2588 ▌ 258C. ▐ 2590
9. ░ 2591 ▒ 2592 ▓ 2593 ⌠ 2320 ■ 25a0. ∙ 2219 √ 221a. ≈ 2248 ≤ 2264 ≥ 2265 A0. ⌡ 2321 ° B0. ² B2. · B7. ÷ f7.
A. ═ 2550 ║ 2551 ╒ 2552 ё 451. ╓ 2553 ╔ 2554 ╕ 2555 ╖ 2556 ╗ 2557 ╘ 2558 ╙ 2559 ╚ 255a. ╛ 255b. ╜ 255C. ╝ 255D. ╞ 255e.
B. ╟ 255f. ╠ 2560 ╡ 2561 E 301. ╢ 2562 ╣ 2563 ╤ 2564 ╥ 2565 ╦ 2566 ╧ 2567 ╨ 2568 ╩ 2569 ╪ 256A. ╫ 256b. ╬ 256C. © A9.
C. Yu 44e. A 430. B 431. C 446. D 434. E 435. F 444. G 433. X 445. și 438. Th 439. La 43a. L 43b. M 43C. H 43D. Aproximativ 43e.
D. P 43F. Sunt 44f. R 440. de la 441. T 442. la 443. 2036. în 432. B 44C. S 44b. S 437. SH 448. E4d. Shch 449. H 447. Kommersant 44a.
E. Yu 42e. A 410. B 411. C 426. D 414. E 415. F 424. G 413. X 425. Și 418. Th 419. K 41A. L 41b. M 41C. H 41D. O 41e.
F. P 41F. Sunt 42f. R 420. Cu 421. T 422. 423. 416. În 412. B 42C. 42b. S 417. W 428. E 42D. Shch 429. H 427. Kommersant 42a.

Codificarea Koi8-U (ucraineană)

KOI-8 a devenit prima codificare standard a Rusiei pe Internet.

OETF a aprobat mai multe RFC în conformitate cu opțiunile de codificare KOI-8:

  • RFC 1489 - KOI8-R (literele alfabetului rus);
  • RFC 2319 - KOI8-U (literele alfabetului ucrainean);
  • RFC 1345 - ISO-IR-111 (cu o eroare la determinarea intervalului principal).

În tabelele de mai sus, numerele sunt denumite printr-un cod hexazecimal al scrisorii din Unicode.

Koi8-R codifică (rusă)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.

8.

2500

2502

250c.

2510

2514

2518

251c.

2524

252C.

2534

253c.

2580

2584

2588

258C.

2590

9.

2591

2592

2593

2320

25a0.

2219

221A.

2248

2264

2265

A0.

2321
°
B0.
²
B2.
·
B7.
÷
F7.

A.

2550

2551

2552
e.
451

2553

2554

2555

2556

2557

2558

2559

255a.

255b.

255c.

255D.

255e.

B.

255f.

2560

2561
E.
401

2562

2563

2564

2565

2566

2567

2568

2569

256a.

256b.

256c.
©
A9.

C.
yu.
44e.
dar
430
b.
431
c.
446
d.
434
e.
435
f.
444
g.
433
h.
445
și
438
j.
439
la
43a.
l.
43b.
m.
43c.
n.
43d.
despre
43e.

D.
p.
43f.
i.
44f.
r.
440
din
441
t.
442
w.
443
j.
436
în
432
b.
44c.
s.
44b.
z.
437
sH
448
e.
44d.
sH
449
c.
447
kommersant.
44a.

E.
Yu.
42e.
DAR
410
B.
411
C.
426
D.
414
E.
415
F.
424
G.
413
H.
425
ȘI
418
J.
419
LA
41a.
L.
41b.
M.
41c.
N.
41d.
DESPRE
41e.

F.
P.
41f.
I.
42f.
R.
420
DIN
421
T.
422
W.
423
J.
416
ÎN
412
B.
42C.
S.
42b.
Z.
417
SH
428
E.
42d.
SH
429
C.
427
Kommersant.
42a.

Alte optiuni

Sunt afișate numai liniile de masă care nu se potrivesc, deoarece orice altceva coincide.

Koi8-u codificare (rusă-ucraineană)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.

A.

2550

2551

2552
e.
451
є
454

2554
і
456
ї
457

2557

2558

2559

255a.

255b.
ґ
491

255D.

255e.

B.

255f.

2560

2561
E.
401
Є
404

2563
І
406
Ї
407

2566

2567

2568

2569

256a.
Ґ
490

256c.
©
A9.

KOI8-RU Codificarea (rusă-Belorussko-ucraineană)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.

A.

2550

2551

2552
e.
451
є
454

2554
і
456
ї
457

2557

2558

2559

255a.

255b.
ґ
491
ў
45e.

255e.

B.

255f.

2560

2561
E.
401
Є
404

2563
І
406
Ї
407

2566

2567

2568

2569

256a.
Ґ
490
Ў
40e.
©
A9.

Codificarea Koi8-C (Asia Centrală)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.
8. ғ
493
җ
497
қ
49b.
ҝ
49d.
ң
4A3.
ү
4AF.
ұ
4b1.
ҳ
4B3.
ҷ
4B7.
ҹ
4b9.
һ
4BB.

2580
ә
4d9.
ӣ
4e3.
ө
4e9.
ӯ
4EF.
9. Ғ
492
Җ
496
Қ
49a.
Ҝ
49c.
Ң
4A2.
Ү
4ae.
Ұ
4b0.
Ҳ
4B2.
Ҷ
4B6.
Ҹ
4b8.
Һ
4ba.

2321
Ә
4d8.
Ӣ
4e2.
Ө
4e8.
Ӯ
4ee.
A.
A0.
ђ
452
ѓ
453
E.
451
є
454
ѕ
455
і
456
ї
457
ј
458
љ
459
њ
45a.
ћ
45b.
ќ
45c.
ґ
491
ў
45e.
џ
45f.
B.
2116
Ђ
402
Ѓ
403
E.
401
Є
404
Ѕ
405
І
406
Ї
407
Ј
408
Љ
409
Њ
40a.
Ћ
40b.
Ќ
40c.
Ґ
490
Ў
40e.
Џ
40f.

Koi8-t Codificarea (Tadjik)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.
8. қ
49b.
ғ
493

201A.
Ғ
492

2010e.

2026

2020

2021

2030
ҳ
4B3.

2039
Ҳ
4B2.
ҷ
4B7.
Ҷ
4B6.
9. Қ
49a.

2018

2019

201c.

201d.

2022

2013
-
2014

2122

203a.
A. ӯ
4EF.
Ӯ
4ee.
E.
451
¤
A4.
ӣ
4e3.
¦
A6.
§
A7.
«
Ab.
¬
AC.
­
ANUNȚ
®
AE.
B. °
B0.
±
B1.
²
B2.
E.
401
Ӣ
4e2.

B6.
·
B7.

2116
»
Bb.
©
A9.

Koi8-O, codificarea Koi8-S (Slavic, Old Spelling)

0407
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.

8.
Ђ
0402
Ѓ
0403
¸
00b8.
ѓ
0453

2010e.

2026

2020
§
00A7.

20ac.
¨
00A8.
Љ
0409

2039
Њ
040a.
Ќ
040c.
Ћ
040b.
Џ
040f.

9.
ђ
0452

2018

2019

201c.

201d.

2022

2013

2014
£
00A3.
·
00b7.
љ
0459

203a.
њ
045A.
ќ
045c.
ћ
045b.
џ
045f.

A.

00A0.
ѵ
0475
ѣ
0463
e.
0451
є
0454
ѕ
0455
і
0456
ї
0457
ј
0458
®
00Ae.

2122
«
00AB.
ѳ
0473
ґ
0491
ў
045e.
´
00b4.

B.
°
00b0.
Ѵ
0474
Ѣ
0462
E.
0401
Є
0404
Ѕ
0405
І
0406
Ї
0407
Ј
0408

2116
¢
00A2.
»
00bb.
Ѳ
0472
Ґ
0490
Ў
040e.
©
00A9.

ISO-IR-111, KOI8-E codificare

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.

A.

00A0.
ђ
0452
ѓ
0453
e.
0451
є
0454
ѕ
0455
і
0456
ї
0457
ј
0458
љ
0459
њ
045A.
ћ
045b.
ќ
045c.
­
00AD.
ў
045e.
џ
045f.

B.

2116
Ђ
0402
Ѓ
0403
E.
0401
Є
0404
Ѕ
0405
І
0406
Ї
0407
Ј
0408
Љ
0409
Њ
040a.
Ћ
040b.
Ќ
040c.
¤
00A4.
Ў
040e.
Џ
040f.

Koi8-Unified Codificare, KOI8-F

Codificarea unificată a KOI8 (KOI8-F) este propusă de software-ul degetului.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.a. .B. .C.c. .D. .E.e. .F.

8.

2500

2502

250c.

2510

2514

2518

251c.

2524

252C.

2534

253c.

2580

2584

2588

258C.

2590

9.

2591

2018

2019

201c.

201d.

2022

2013

2014
©
00A9.

2122

00A0.
»
00bb.
®
00Ae.
«
00AB.
·
00b7.
¤
00A4.

A.

00A0.
ђ
0452
ѓ
0453
e.
0451
є
0454
ѕ
0455
і
0456
ї
0457
ј
0458
љ
0459
њ
045A.
ћ
045b.
ќ
045c.
ґ
0491
ў
045e.
џ
045f.

B.

2116
Ђ
0402
Ѓ
0403
E.
0401
Є
0404
Ѕ
0405
І
0406
Ї
0407
Ј
0408
Љ
0409
Њ
040a.
Ћ
040b.
Ќ
040c.
Ґ
0490
Ў
040e.
Џ
040f.

Opțiuni pentru nefumători Koi-8

În unele țări, CMEA-urile au fost create de modificările KOI-8 pentru opțiunile naționale din urmă. Ideea de bază a fost aceeași - cu "tăierea" a celui al optulea bit, textul ar trebui să rămână mai mult sau mai puțin ușor de înțeles.

- Păi, începeți! - A spus Doolokh.
- Ei bine, spuse Pierre, zâmbind încă. - M-am speriat. Era evident că cazul, care a început atât de ușor, nu mai putea fi împiedicat să se întâmple, deja, indiferent de voința oamenilor și ar fi trebuit făcut. Denisov a venit mai întâi la bariera și a proclamat:
- Din moment ce P "Svatsniki a refuzat" ei ", indiferent dacă nu este posibil să începeți: să luați arme și în funcție de cuvântul t" și să începeți să converge.
"G ..." AZ! Două! T "Și! ..." Denisov a strigat furios și sa mutat în lateral. Ambii au mers pe căile trotate mai aproape și mai aproape, în ceața care se recunosc reciproc. Oponenții aveau dreptul, ieșind la barieră, trage când vrea cineva. Shelokh era lent, fără a ridica arma, privirea cu ochii strălucitori, strălucitori, albastri, în fața adversarului ei. Gura lui, ca întotdeauna, avea un zâmbet ca.
- Deci, când vreau - pot trage! - a spus Pierre, cu cuvântul trei pași rapizi au mers înainte, confruntarea de la pasarea trotană și mersul pe zăpadă întregi. Pierre a ținut o armă, întinzându-se spre mâna dreaptă, aparent frică de pistol să nu se sinucidă. El și-a posedat cu sârguință mâna stângă, pentru că dorea să-i sprijine mâna dreaptă și știa că era imposibil. Trecerea pașilor șase și coborâți de pe pistă în zăpadă, Pierre se uită la picioarele lui, din nou, se uită din nou la Dolokhov și tragând degetul, așa cum a fost învățat, împușcat. Nu mă aștept la un sunet atât de puternic, Pierre sa cutremurat de la împușcătura lui, apoi mi-a zâmbit impresia și sa oprit. Fumul, mai ales gros de ceață, îl împiedica să-l vadă în primul moment; Dar o altă lovitură pe care o aștepta, nu a urmat. Numai treptele grăbite ale lui Dolohov au fost auzite și figura lui părea din cauza fumului. Cu o mână, el a ținut în spatele părții stângi, celălalt comprimat un pistol omis. Fața lui era palidă. Rostov a alergat și ceva ia spus.
"Nu este ... E ... t", a spus Solokov prin dinți, "nu, nu mai mult" și făcând mai multe cădem, făcând pași spre sabore, a căzut pe zăpada lângă ea. Mâna stângă era în sânge, o depășește despre sutură și o aplecă. Fața lui era palidă, încruntată și tremurată.
"Voi scrie ..." a început să împărtășească, dar nu a putut spune imediat ... "Te rog, a fost de acord cu efort". Pierre, abia care deține suspine, a alergat la Dolohov și a vrut să treacă prin spațiul care separă barierele, așa cum Shahov a strigat: - la barieră! - Și Pierre, care și-a dat seama ce sa întâmplat, sa oprit la saber. Doar 10 pași le-au împărtășit. Sheokhov își aruncă capul spre zăpadă, mușcă cu lăcomie zăpada, și-a ridicat din nou capul, recuperat, și-a luat picioarele și se așeză, căutând un centru solid de gravitate. El a înghițit zăpada rece și îl suge; Buzele lui tremurau, dar totul zâmbește; Ochii străluceau cu efort și cu uterul celorlalte forțe colectate. El a ridicat arma și a început să urmărească.
- Partea, închideți arma, spuse Nesvitsky.
- 3ak "Me! - Fără rezistență, chiar Denisov a strigat adversarul său.
Pierre cu zâmbetul blând al regretului și al pocăinței, punerea neajutorării picioarele și mâinile, direct cu sânii ei largi stăteau înainte de Dolokhov și trist sa uitat la el. Denisov, Rostov și Nesvitsky au urcat. În același timp, au auzit împușcat și strigătul rău al Dologov.
- de! - A strigat de Shahov și se așează fără putere pe fața zăpezii. Pierre și-a apucat capul și, întorcându-se înapoi, a mers în pădure, mergând în întregime în zăpadă și cu voce tare condamnați cuvinte necunoscute:
- Stupid ... stupid! Moartea ... Fals ... - A spus că arde. Nesvitsky l-au oprit și și-a luat casa.
Rostov cu Denisov a fost norocos de Dolokhov rănit.
SHELOKHOV, în tăcere, cu ochii închiși, așezată în sanie și nu a răspuns la întrebările pe care le-a făcut; Dar, după ce a intrat în Moscova, sa trezit brusc și, cu dificultatea de a-și ridica capul, ia luat pe Rostov care stătea cu mâna. Rostov a lovit complet schimbat și expresia entuziastă în mod neașteptat a feței Dologov.
- Bine? Cum te simti? - Întrebă Rostov.
- Spaltul! Dar nu punctul. Prietenul meu, spuse vocea Shard la vocea intermitentă, unde suntem noi? Suntem la Moscova, știu. Nu sunt nimic, dar am ucis-o, ucisă ... nu o va lua. Ea nu se va întâmpla ...
- Care? - Întrebă Rostov.
- Mama mea. Mama, îngerul meu, îngerul meu adorabil, mama, - și Solohov am strigat, stoarcem mâna lui Rostov. Când sa liniștit într-o oarecare măsură, ia explicat pe Rostov, care trăiește împreună cu mama sa, că dacă mama îl vede pe moarte, nu o va lua. El la rugat pe Rostov să meargă la ea și să o pregătească.
Rostov a continuat să îndeplinească ordinea și a învățat la mare surpriză faptul că a aflat că, acest cumpărător, Brenerul Solohov a trăit la Moscova cu bătrîna și o soră cocoșată și a fost cel mai blând fiu și frate.

Pierre B. În ultima vreme Rar și-a văzut soția cu ochii pe ochi. Și în St. Petersburg, iar la Moscova, casa lor era în mod constant plină de oaspeți. În noaptea următoare, după un duel, el, așa cum a făcut adesea, nu a mers în dormitor, dar a rămas în biroul său uriaș, părinte, în cea în care a murit numărul cerșetorului.
El sa confruntat cu canapeaua și a vrut să adoarmă, pentru a uita tot ce a fost cu el, dar nu putea face asta. O astfel de furtună de sentimente, gânduri, amintirile s-au ridicat dintr-o dată în sufletul său că nu numai că nu putea să doarmă, dar nu putea să stea pe loc și să sară de la canapea și să meargă în jurul camerei cu pași rapizi. I-a fost prezentat la început după căsătorie, cu umeri deschisi și un aspect obosit, pasionat, și imediat lângă ea părea frumos, brazen și ferm bocking de Dolokhov, cum a fost la cină, și aceeași față Dologov, palid, tremurând Și suferă cum a fost când sa întors și a căzut pe zăpadă.
"Ce a fost acolo? - sa întrebat el însuși. - Am ucis iubitul, da, am ucis iubitul soției sale. Da, a fost. De la ce? Cum am ajuns la asta? - Pentru că te-ai căsătorit cu ea, răspunse vocea interioară.
"Dar ce sunt vinovat? El a intrebat. - În faptul că nu te-ai căsătorit, iubindu-i, în faptul că te-ai înșelat și ea, - și el a fost adunat acel moment după cină la prințul Vasilla, când a spus aceste cuvinte care nu puteau fi numite: "JE VOU Aime ". [Te iubesc.] Totul de la asta! Am simțit apoi, se gândi el, m-am simțit atunci că nu aveam niciun drept la asta. Așa că a ieșit. Își aduce aminte de luna de miere și se întindea cu amintirile. Mai ales plin de viață, amintirile despre cum într-o zi, la scurt timp după căsătoria sa, avea 12 metri de zi, într-o haină de mătase a venit din dormitor la birou și a găsit capul șefului managerului, care se întreba cu gânduri, Se uită la fața lui Pierre, pe halat de baie și mi-a zâmbit ușor, ca și cum ar fi exprimând acest zâmbet simpatia fericirii principiului său.
"Și de câte ori am fost mândru de asta, eram mândru de frumusețea ei mare, tactul ei secular, credea el; Era mândru de casa în care a luat întreaga Petersburg, mândră de inaccesibilitatea și frumusețea ei. Deci, de ce sunt mândru?! Apoi am crezut că nu am înțeles-o. De câte ori, gândindu-mă la caracterul ei, mi-am spus că am fost de vină că nu o înțeleg, nu înțeleg această agregare, satisfacție și absență a oricărei dependențe și dorințe, iar întregul impact a fost în acel cuvânt teribil Că ea este o femeie depravată: mi-a spus eu este un cuvânt teribil și totul a devenit clar!
"Anatol a călătorit la ea pentru a lua bani de la ea și a sărutat-o \u200b\u200bîn umerii ei goi. Nu i-a dat bani, dar a permis să se sărute. Tată, glumă, a încântat gelozia ei; Ea, cu un zâmbet relaxat, a spus că nu era atât de proastă să fie gelos: să facă asta pe care dorea, mi-a spus despre mine. Am întrebat-o o dată, fie că simte semne de sarcină. Ea a râs disprețuitor și a spus că nu era un nebun să dorească să aibă copii și că nu ar avea copii de la mine.
Apoi și-a adus aminte de rudeness, claritatea gândurilor sale și vulgaritatea expresiilor inerente ei, în ciuda educației sale în cel mai înalt cerc aristocratic. "Nu sunt un fel de nebun ... mă voi încerca ... Allez Vouus Promener," Ieși afară, a spus ea. Adesea, uitându-se la succesul ei în ochii bătrânilor și a tinerilor, Pierre nu putea să înțeleagă de ce nu a iubit-o. Da, nu am iubit-o niciodată, mi-am spus Pierre; Știam că era o femeie depravată, se repetă, dar nu sa deranjat să o recunoască.