Koi8-r που κωδικοποιεί. Τι είδους koi8-r που κωδικοποιεί και τι έδωσε; Koi κωδικοποίηση πίνακα 8 δεκαδικός κώδικας

Γεια σας, Αγαπητέ Ιστοσελίδα Αναγνώστες Blog. Σήμερα θα σας μιλήσουμε για το πού προέρχονται από το Krakoyarbra από και σε προγράμματα, τα οποία υπάρχουν κωδικοποιήσεις κειμένου και ποιο από αυτά πρέπει να χρησιμοποιηθεί. Ας εξετάσουμε λεπτομερώς την ιστορία της ανάπτυξής τους, που κυμαίνονταν από τη βασική ASCII, καθώς και τις εκτεταμένες εκδόσεις του CP866, KOI8-R, Windows 1251 και που τελειώνουν με σύγχρονους κώδικες της κοινοπραξίας UNF 16 και 8 UNICODE.

Κάποιος αυτή οι πληροφορίες ενδέχεται να φαίνονται περιττές, αλλά θα γνωρίζατε πόσα ερωτήματα έρχονται σε μένα με ακρίβεια τις ρωγμές (χωρίς να διαβάζουν ένα σύνολο χαρακτήρων). Τώρα θα έχω την ευκαιρία να στείλω σε όλους στο κείμενο αυτού του άρθρου και να αναζητήσουμε ανεξάρτητα τα κοπάδια σας. Λοιπόν, ετοιμαστείτε να απορροφήσετε τις πληροφορίες και να προσπαθήσετε να παρακολουθήσετε την αφήγηση.

ASCII - βασική κωδικοποίηση κειμένου latiza

Η ανάπτυξη κωδικοποιητών κειμένου συμβαίνει ταυτόχρονα με το σχηματισμό της βιομηχανίας πληροφορικής και κατά τη διάρκεια αυτής της περιόδου είχαν χρόνο να υποβληθούν σε αρκετές αλλαγές. Ιστορικά, όλα ξεκίνησαν με ένα μάλλον επιβλαβές στη ρωσική προφορά του EBCDIC, γεγονός που επέτρεψε την κωδικοποίηση των γραμμάτων του λατινικού αλφαβήτου, των αραβικών αριθμών και των σημείων στίξης με σύμβολα ελέγχου.

Αλλά ακόμα το σημείο εκκίνησης για την ανάπτυξη σύγχρονων κωδικοποιητών κειμένου θα πρέπει να θεωρείται διάσημος Ascii. (Ο αμερικανικός τυποποιημένος κωδικός για την ανταλλαγή πληροφοριών, η οποία στα ρωσικά προφέρεται συνήθως ως "Aski"). Περιγράφει τους πρώτους 128 χαρακτήρες από τα πιο συχνά χρησιμοποιούμενα από αγγλόφωνους χρήστες -, αραβικούς αριθμούς και σημεία στίξης.

Ακόμη και σε αυτούς τους 128 χαρακτήρες που περιγράφονται στο ASCII, ορισμένα σύμβολα εξυπηρέτησης θρυμματίζονται από αγκύλες, πλέξιμο, αστερίσκους κ.λπ. Στην πραγματικότητα, εσείς ο ίδιος μπορεί να τους δει:

Αυτοί οι 128 χαρακτήρες από την αρχική έκδοση του ASCII έχουν γίνει το πρότυπο και σε οποιαδήποτε άλλη κωδικοποίηση θα συναντήσετε σίγουρα και θα είστε σίγουρα ότι θα είναι κατά τέτοιο τρόπο.

Αλλά το γεγονός είναι ότι με τη βοήθεια ενός byte των πληροφοριών, μπορείτε να κωδικοποιήσετε όχι 128, αλλά έως και 256 διαφορετικές τιμές (δύο φορές στο βαθμό οκτώ ισούται με 256), έτσι μια ολόκληρη σειρά εμφανίστηκε μετά τη βασική έκδοση του Αίτηση Προηγμένες κωδικοποιήσεις ASCIIΕκτός από 128 κύρια σημεία, ήταν επίσης δυνατή η κωδικοποίηση των εθνικών συμβόλων κωδικοποίησης (για παράδειγμα, ρωσικά).

Εδώ, πιθανώς, αξίζει λίγο περισσότερο για το σύστημα αριθμών που χρησιμοποιούνται στην περιγραφή. Πρώτον, όπως γνωρίζετε τα πάντα, ο υπολογιστής λειτουργεί μόνο με αριθμούς σε ένα δυαδικό σύστημα, δηλαδή με μηδενικά και μονάδες ("Boulev Algebra", αν κάποιος που πραγματοποιήθηκε στο Ινστιτούτο ή στο σχολείο). Καθένα από τα οποία είναι αποφασιστικότητα σε ένα πτυχίο, ξεκινώντας από το μηδέν και σε δύο στο έβδομο:

Δεν είναι δύσκολο να καταλάβουμε ότι όλοι οι πιθανοί συνδυασμοί μηδενικών και μονάδων σε ένα τέτοιο σχεδιασμό μπορούν να είναι 256. Μεταφράστε τον αριθμό από το δυαδικό σύστημα στο δεκαδικό είναι αρκετά απλό. Είναι απαραίτητο να διπλώσετε απλώς όλους τους βαθμούς των δύο πάνω από αυτό που βρίσκεται.

Στο παράδειγμά μας, αποδεικνύεται 1 (2 έως το βαθμό μηδέν) συν 8 (δύο έως βαθμούς 3), συν 32 (δύο φορές στον πέμπτο βαθμό), συν 64 (στο έβδομο), συν 128 (στο έβδομο), συν 128 (στο έβδομο) . Το σύνολο λαμβάνει 233 σε ένα σύστημα δεκαδικού αριθμού. Όπως μπορείτε να δείτε, όλα είναι πολύ απλά.

Αλλά αν κοιτάξετε το τραπέζι με χαρακτήρες ASCII, θα δείτε ότι παρουσιάζονται σε δεκαεξαδική κωδικοποίηση. Για παράδειγμα, ο "αστερίσκος" αντιστοιχεί στον παράδεισο ενός δεκαεξαδικού αριθμού 2α. Πιθανώς, γνωρίζετε ότι σε ένα σύστημα δεκαεξαδικού αριθμού, τα λατινικά γράμματα από ένα (μέσο δέκα) έως f (μέσο δεκαπέντε) χρησιμοποιούνται σε ένα σύστημα δεκαεξαδικού αριθμού.

Καλά, έτσι για Μεταφράστε δυαδικούς αριθμούς σε δεκαεξαδικό Θέρετρο στον επόμενο απλό και οπτικό τρόπο. Κάθε byte των πληροφοριών χωρίζεται σε δύο μέρη τεσσάρων δυαδικών ψηφίων, όπως φαίνεται στο screenshot παραπάνω. Έτσι Σε κάθε μισό του byte, ο δυαδικός κώδικας μπορεί να κωδικοποιηθεί μόνο για δεκαέξι τιμές (δύο στον τέταρτο βαθμό), το οποίο μπορεί εύκολα να αντιπροσωπεύεται από δεκαεξαδικό.

Επιπλέον, στο αριστερό ήμισυ του byte, θα χρειαστεί να εξεταστεί και πάλι από το μηδέν και όχι όπως φαίνεται στο στιγμιότυπο οθόνης. Ως αποτέλεσμα, από μη καλούς υπολογιστές, παίρνουμε ότι ο αριθμός E9 κωδικοποιείται στο στιγμιότυπο οθόνης. Ελπίζω ότι η πορεία της συλλογιστικής μου και η στερεοποίηση αυτής της rebus ήταν κατανοητή. Λοιπόν, τώρα θα συνεχίσουμε, πραγματικά μιλάμε για το κείμενο που κωδικοποιεί.

Εκτεταμένες εκδόσεις του Aski - CP866 και Koi8-R που κωδικοποιούν με ψευδογραφία

Έτσι, αρχίσαμε να μιλάμε για την ASCII, η οποία ήταν σαν ένα σημείο εκκίνησης για την ανάπτυξη όλων των σύγχρονων κωδικοποιητών (Windows 1251, Unicode, UTF 8).

Αρχικά, τοποθετήθηκε μόνο 128 σημάδια του λατινικού αλφαβήτου, των αραβικών αριθμών και κάτι άλλο εκεί, αλλά στην εκτεταμένη έκδοση ήταν δυνατή η χρήση και οι 256 τιμές που μπορούν να κωδικοποιηθούν σε μία πληροφορίες Pate. Εκείνοι. Μια ευκαιρία να προσθέσετε σύμβολα των γραμμάτων της γλώσσας του σε Aska.

Εδώ θα χρειαστεί να αποστασιοποιηθεί και πάλι για να αποσαφηνιστεί - Γιατί χρειάζεστε κωδικοποίηση κείμενα και γιατί είναι τόσο σημαντικό. Οι χαρακτήρες στην οθόνη του υπολογιστή σας σχηματίζονται με βάση δύο πράγματα - σύνολα φορέων (αναπαριστώματα) όλων των ειδών χαρακτήρων (είναι σε αρχεία CO) και κώδικα που σας επιτρέπει να τραβήξετε αυτό το σύνολο σχήματος φορέα ( Αρχείο γραμματοσειράς) Είναι ο χαρακτήρας που πρέπει να εισαχθεί στο σωστό μέρος.

Είναι σαφές ότι οι γραμματοσειρές είναι υπεύθυνες για τις φορικές μορφές, αλλά το λειτουργικό σύστημα και τα προγράμματα που χρησιμοποιούνται σε αυτήν είναι υπεύθυνα για την κωδικοποίηση. Εκείνοι. Οποιοδήποτε κείμενο στον υπολογιστή σας θα είναι ένα σύνολο bytes σε καθένα από τα οποία κωδικοποιείται ένα μόνο σύμβολο αυτού του κειμένου.

Το πρόγραμμα που εμφανίζει αυτό το κείμενο στην οθόνη (επεξεργαστής κειμένου, πρόγραμμα περιήγησης κ.λπ.), κατά την ανάλυση του κώδικα, διαβάζει την κωδικοποίηση του επόμενου σημείου και αναζητήσεις για τη φόρμα φορέα που αντιστοιχεί στο αρχείο που επιθυμείται στο επιθυμητό αρχείο γραμματοσειράς που είναι συνδεδεμένο Εμφανίστε αυτό το έγγραφο κειμένου. Όλα είναι απλά και τρίτα.

Έτσι, να κωδικοποιήσει οποιοδήποτε σύμβολο που χρειαζόμαστε (για παράδειγμα, από το εθνικό αλφάβητο), πρέπει να ολοκληρωθούν δύο προϋποθέσεις - η μορφή φορέα αυτού του σημείου θα πρέπει να είναι στη χρήση γραμματοσειράς και αυτό το σύμβολο θα μπορούσε να κωδικοποιηθεί στις εκτεταμένες κωδικοποιήσεις ASCII σε ένα byte σε ένα byte . Επομένως, υπάρχει μια ολόκληρη δέσμη τέτοιων επιλογών. Μόνο για την κωδικοποίηση των συμβόλων της ρωσικής γλώσσας υπάρχουν αρκετές ποικιλίες εκτεταμένων κοιωτώνων.

Για παράδειγμα, εμφανίστηκε αρχικά Cp866.Στην οποία ήταν δυνατό να χρησιμοποιηθούν τα σύμβολα του ρωσικού αλφαβήτου και ήταν μια εκτεταμένη έκδοση του ASCII.

Εκείνοι. Το πάνω μέρος του συμπίπτει εντελώς με τη βασική έκδοση του Aski (128 σύμβολα των λατινικών, αριθμών και ακόμη και κάθε labuda), το οποίο αντιπροσωπεύεται στο στιγμιότυπο οθόνης ελαφρώς υψηλότερο, αλλά ήδη το κάτω μέρος του πίνακα κωδικοποίησης CP866 είχε το καθορισμένο στο στιγμιότυπο οθόνης Ελαφρώς κάτω από την άποψη και επιτρέπεται να κωδικοποιήσει άλλα 128 σημάδια (ρωσικά γράμματα και οποιοδήποτε ψευδοχογραφικό):

Βλέπετε, στη δεξιά στήλη, οι αριθμοί αρχίζουν με 8, επειδή Οι αριθμοί από 0 έως 7 αναφέρονται στο βασικό τμήμα του ASCII (βλέπε το πρώτο στιγμιότυπο οθόνης). Έτσι Το ρωσικό γράμμα "M" στο CP866 θα έχει κωδικό 9c (είναι στη διασταύρωση των αντίστοιχων γραμμών με 9 και τη στήλη με έναν αριθμό C σε ένα εξακρυδωτό σύστημα αριθμού), το οποίο μπορεί να γραφτεί σε μία πληροφορίες byte και αν Υπάρχει μια κατάλληλη γραμματοσειρά με ρωσικούς χαρακτήρες, αυτή η επιστολή χωρίς προβλήματα θα εμφανιστεί στο κείμενο.

Από πού προέρχεται αυτή η ποσότητα Ψευδοχογράφους στο CP866.; Είναι όλο το γεγονός ότι αυτή η κωδικοποίηση για το ρωσικό κείμενο αναπτύχθηκε σε αυτά τα λαμπρά χρόνια, όταν δεν υπήρχε τέτοια διανομή γραφικών λειτουργικών συστημάτων όπως τώρα. Και στο Dost, και παρόμοιες εργασίες κειμένου, η ψευδογραφική επέτρεψε τουλάχιστον με κάποιο τρόπο να διαφοροποιήσει τον σχεδιασμό των κειμένων και ως εκ τούτου αφθονούν με CP866 και όλες τις άλλες σειρές της από την απόρριψη εκτεταμένων εκδόσεων της ASCA.

CP866 Κατανεμημένη εταιρεία IBM, αλλά επιπλέον, αναπτύχθηκαν ένας αριθμός κωδικοποιητών για τα σύμβολα της ρωσικής γλώσσας, για παράδειγμα, ο ίδιος τύπος (εκτεταμένος ascii) μπορεί να αποδοθεί Koi8-r.:

Η αρχή της εργασίας της παρέμεινε η ίδια με το CP866 που περιγράφεται αργότερα - κάθε σύμβολο κειμένου κωδικοποιείται από ένα μόνο byte. Το στιγμιότυπο οθόνης δείχνει το δεύτερο μισό του πίνακα Koi8-R, επειδή Το πρώτο ημίχρονο είναι πλήρως σύμφωνο με τη βάση ASUS, η οποία εμφανίζεται στο πρώτο στιγμιότυπο οθόνης σε αυτό το άρθρο.

Μεταξύ των χαρακτηριστικών της κωδικοποίησης KOI8-R, μπορεί να σημειωθεί ότι τα ρωσικά γράμματα στο τραπέζι του δεν είναι αλφαβητική σειρά, όπως αυτή, για παράδειγμα, το CP866.

Αν κοιτάξετε το πρώτο στιγμιότυπο οθόνης (βάση βάσης, το οποίο εισέρχεται σε όλες τις εκτεταμένες κωδικοποιήσεις), τότε παρατηρήστε ότι στο Koi8-R, τα ρωσικά γράμματα βρίσκονται στα ίδια τραπέζια του τραπεζιού με τα γράμματα του λατινικού αλφαβήτου από το πρώτο μέρος του το τραπέζι. Αυτό έγινε για την ευκολία εναλλαγής από τα ρωσικά σύμβολα στα λατινικά, απορρίπτοντας μόνο ένα bit (δύο στον έβδομο βαθμό ή 128).

Windows 1251 - μια σύγχρονη έκδοση του ASCII και γιατί βγαίνει από τις ρωγμές

Η περαιτέρω ανάπτυξη των κωδικοποιητών κειμένου οφείλεται στο γεγονός ότι τα γραφικά λειτουργικά συστήματα και η ανάγκη χρήσης των ψευδογραφικών στοιχείων σε αυτά κέρδισαν δημοτικότητα. Ως αποτέλεσμα, μια ολόκληρη ομάδα προέκυψε, η οποία, στην ουσία τους, εξακολουθούσε να προηγούνται οι προηγμένες εκδόσεις του Aski (ένα σύμβολο κειμένου κωδικοποιείται μόνο με μία μόνο byput της πληροφόρησης), αλλά χωρίς να χρησιμοποιήσετε ψευδοχογράφους χαρακτήρες.

Αντιμετωπίστηκαν τη λεγόμενη κωδικοποίηση ANSI, τα οποία αναπτύχθηκαν από το αμερικανικό Ινστιτούτο Τυποποίησης. Το όνομα του Cyrillic εξακολουθούσε να χρησιμοποιήθηκε στο Surchanting για μια επιλογή με την υποστήριξη της ρωσικής γλώσσας. Ένα παράδειγμα ενός τέτοιου παραδείγματος.

Ήταν ευνοϊκά διαφορετικά από τα προηγουμένως χρησιμοποιούμενα CP866 και KOI8-R στο ότι ο τόπος των χαρακτήρων του ψευδοογραφικού σε αυτό πήρε τα σύμβολα που λείπουν της ρωσικής τυπογραφίας (το σήμα μείωσης), καθώς και τα σύμβολα που χρησιμοποιούνται κοντά στο ρωσικό σλαβικό Γλώσσες (Ουκρανικά, Λευκορωσικά, κ.λπ.):

Λόγω μιας τέτοιας αφθονίας της κωδικοποίησης της ρωσικής γλώσσας, οι κατασκευαστές των γραμματοσειρών και οι κατασκευαστές λογισμικού είχαν συνεχώς έναν πονοκέφαλο, και μαζί σας, αγαπητοί αναγνώστες, συχνά πήρε αυτούς τους πιο διαβόητους ΚρυσαμπρύΌταν η σύγχυση διδάσκεται με την έκδοση που χρησιμοποιήθηκε στο κείμενο.

Πολύ συχνά, βγήκαν κατά την αποστολή και λήψη μηνυμάτων μέσω ηλεκτρονικού ταχυδρομείου, οι οποίες οδήγησαν στη δημιουργία πολύ περίπλοκων πινάκων υπέρυσξης, οι οποίες, στην πραγματικότητα, δεν μπορούσαν να λύσουν αυτό το πρόβλημα στη ρίζα και συχνά χρησιμοποιήθηκαν οι χρήστες για αλληλογραφία για να αποφύγουν τα περιβόριστα krakozyabs όταν χρησιμοποιήθηκαν Ρωσικές κωδικοποιήσεις παρόμοιο CP866, KOI8-R ή Windows 1251.

Στην ουσία, η Krakoyarbra, ο οποίος προσδίδει αντί του ρωσικού κειμένου, ήταν το αποτέλεσμα της λανθασμένης χρήσης της κωδικοποίησης αυτής της γλώσσας, η οποία δεν ταιριάζει με αυτό που έχει κωδικοποιηθεί αρχικά το μήνυμα κειμένου.

Ας υποθέσουμε εάν τα σύμβολα που κωδικοποιούνται με CP866, προσπαθήστε να εμφανιστούν χρησιμοποιώντας τον πίνακα κωδικών Windows 1251, τότε αυτά τα πιο ραγισμένα (χωρίς νόημα σύνολο χαρακτήρων) και βγείτε έξω, αντικαθιστώντας πλήρως το κείμενο του μηνύματος.

Μια παρόμοια κατάσταση συμβαίνει πολύ συχνά σε, φόρουμ ή blogs, όταν το κείμενο με ρωσικούς χαρακτήρες κατά λάθος δεν αποθηκεύεται στην ίδια κωδικοποίηση που χρησιμοποιείται στον προεπιλεγμένο ιστότοπο ή όχι στον επεξεργαστή κειμένου, το οποίο προσθέτει στον κωδικό Sebestin όχι ορατό με γυμνό μάτι.

Στο τέλος, μια τέτοια κατάσταση με πολλές κωδικοποιήσεις και συνεχώς σέρνεται από cranebrams, πολλές κουρασμένες, υπήρχαν προϋποθέσεις για τη δημιουργία μιας νέας παγκόσμιας παραλλαγής, η οποία θα αντικατέστησε όλα τα υπάρχοντα και να λύσει, τέλος, στη ρίζα του προβλήματος με την εμφάνιση του μη Αναγνωρισμένα κείμενα. Επιπλέον, υπήρχε πρόβλημα των γλωσσών παρόμοιων κινεζικών, όπου τα σύμβολα της γλώσσας ήταν πολύ περισσότερο από 256.

Unicode (Unicode) - Universal Codes UTF 8, 16 και 32

Αυτά τα χιλιάδες σημάδια της γλωσσικής ομάδας της Νοτιοανατολικής Ασίας δεν μπορούσαν να περιγραφούν σε μία πληροφορίες με Pape που διατέθηκαν για κωδικοποίηση χαρακτήρων σε προηγμένες εκδόσεις ASCII. Ως αποτέλεσμα, δημιουργήθηκε μια κοινοπραξία που ονομάζεται Unicode (Unicode - κοινοπραξία Unicode) στη συνεργασία πολλών ηγέτες της βιομηχανίας (εκείνοι που παράγουν ένα λογισμικό που κωδικοποιεί το σίδηρο, ο οποίος δημιουργεί γραμματοσειρές) που ενδιαφέρουν την εμφάνιση ενός παγκόσμιου κειμένου που κωδικοποιεί.

Η πρώτη παραλλαγή που δημοσιεύθηκε υπό την αιγίδα της κοινοπραξίας Unicode ήταν UTF 32.. Το ψηφίο στο όνομα της κωδικοποίησης σημαίνει τον αριθμό των δυαδικών ψηφίων που χρησιμοποιείται για την κωδικοποίηση ενός συμβόλου. Τα 32 bits είναι 4 bytes πληροφοριών που θα χρειαστούν για την κωδικοποίηση ενός ενιαίου σημείου στη νέα κωδικοποίηση Universal UTF.

Ως αποτέλεσμα, το ίδιο αρχείο με το κείμενο που κωδικοποιείται στην εκτεταμένη έκδοση του ASCII και UTF-32 θα έχει στην τελευταία περίπτωση θα έχει το μέγεθος (ζυγίζει) τέσσερις φορές τέσσερις φορές. Είναι κακό, αλλά τώρα έχουμε την ευκαιρία να κωδικοποιήσουμε τον αριθμό των σημείων ίσο με δύο έως τριάντα δεύτερους βαθμούς με τη βοήθεια του UTF ( Δισεκατομμύρια χαρακτήρεςπου θα καλύπτει οποιαδήποτε πραγματική αξία με ένα κολοσσιαίο περιθώριο).

Όμως, πολλές χώρες με τις γλώσσες της Ευρωπαϊκής Ομάδας έχουν τόσο τεράστιο αριθμό σημείων για χρήση στην κωδικοποίηση καθόλου και δεν υπήρχαν, ωστόσο, όταν χρησιμοποιούν το UTF-32, δεν έλαβαν τέσσερις φορές αύξηση Στο βάρος των εγγράφων κειμένου και ως εκ τούτου, μια αύξηση των αποθηκευμένων δεδομένων του Διαδικτύου και των αποθηκευμένων οχημάτων. Αυτό είναι πολύ και κανείς δεν θα μπορούσε να προσφέρει τέτοια απόβλητα.

Ως αποτέλεσμα της εμφάνισης της ανάπτυξης του Unicode UTF-16.που αποδείχθηκε τόσο επιτυχημένη που υιοθετήθηκε από προεπιλογή ως βασικό χώρο για όλους τους χαρακτήρες που χρησιμοποιούμε. Χρησιμοποιεί δύο bytes για να κωδικοποιήσει ένα σημάδι. Ας δούμε πώς μοιάζει αυτό το πράγμα.

Στο λειτουργικό σύστημα των Windows, μπορείτε να περάσετε κατά μήκος της διαδρομής "Έναρξη" - "Προγράμματα" - "Standard" - "Υπηρεσία" - "πίνακας χαρακτήρων". Ως αποτέλεσμα, ένας πίνακας ανοίγει με φορέα μορφές όλων των εγκατεστημένων στις γραμματοσειρές σας. Εάν επιλέξετε σε "πρόσθετες παραμέτρους" ένα σύνολο χαρακτήρων Unicode, μπορείτε να δείτε για κάθε γραμματοσειρά ξεχωριστά το όλο φάσμα των χαρακτήρων που περιλαμβάνονται σε αυτό.

Με την ευκαιρία, κάνοντας κλικ σε οποιοδήποτε από αυτά, μπορείτε να το δείτε δύο Κωδικός σε μορφή UTF-16που αποτελείται από τέσσερα δεκαεξαδικά ψηφία:

Πόσοι χαρακτήρες μπορούν να κωδικοποιηθούν στο UTF-16 χρησιμοποιώντας 16 bits; 65 536 (δύο έως δεκαέξι), και αυτός ο αριθμός ελήφθη για τον βασικό χώρο στο Unicode. Επιπλέον, υπάρχουν τρόποι να κωδικοποιήσετε με αυτό και περίπου δύο εκατομμύρια χαρακτήρες, αλλά περιορίζεται στον εκτεταμένο χώρο σε ένα εκατομμύριο συμβόλων κειμένου.

Αλλά ακόμα και αυτή η επιτυχημένη έκδοση της κωδικοποίησης του Unicode δεν έφερε μεγάλη ικανοποίηση από εκείνους που έγραψαν, για παράδειγμα, τα προγράμματα μόνο στα αγγλικά, επειδή έχουν, μετά την εναλλαγή από την εκτεταμένη έκδοση του ASCII στο UTF-16, το βάρος των εγγράφων αυξήθηκε δύο φορές (ένα byte ανά ένα σύμβολο στο Aski και δύο bytes στο ίδιο σύμβολο στο UTF-16).

Αυτός είναι ακριβώς να ικανοποιηθεί ο καθένας και ο καθένας στην κοινοπραξία Unicode αποφασίστηκε να βρει Κωδικοποίηση μεταβλητού μήκους. Ονομάστηκε UTF-8. Παρά τα οκτώ στον τίτλο, έχει πραγματικά ένα μεταβλητό μήκος, δηλ. Κάθε σύμβολο κειμένου μπορεί να κωδικοποιηθεί σε μια αλληλουχία ενός έως έξι byte.

Στην πράξη, το UTF-8 χρησιμοποιεί μόνο μια σειρά από ένα έως τέσσερις byte, επειδή δεν υπάρχει τίποτα ακόμη θεωρητικά δυνατό να υποβάλει οτιδήποτε στα τέσσερα bytes του κώδικα. Όλα τα λατινικά σημάδια κωδικοποιούνται σε ένα byte, καθώς και στην παλιά καλή ascii.

Αυτό που είναι αξιοσημείωτο, στην περίπτωση της κωδικοποίησης μόνο των λατινικών, ακόμη και τα προγράμματα που δεν καταλαβαίνουν το Unicode θα διαβάσουν ακόμα τι κωδικοποιείται στο UTF-8. Εκείνοι. Το βασικό μέρος της Aska απλά μετατράπηκε σε αυτό από την κοινοπραξία Unicode.

Τα κυριλλικά σημάδια στο UTF-8 κωδικοποιούνται σε δύο byte και, για παράδειγμα, στη Γεωργία - σε τρία byte. Η κοινοπραξία Unicode μετά τη δημιουργία του UTF 16 και 8 αποφάσισε το κύριο πρόβλημα - τώρα έχουμε Στη γραμματοσειρά υπάρχει ένας χώρος ενιαίου κωδικού. Και τώρα οι κατασκευαστές τους παραμένουν μόνο με βάση τις δυνάμεις και τις ευκαιρίες τους για να το γεμίσουν με φορτικές μορφές συμβόλων κειμένου. Τώρα στα σύνολα ακόμη και.

Στο παρακάτω πίνακα συμβόλων, μπορεί να φανεί ότι διαφορετικές γραμματοσειρές υποστηρίζουν έναν διαφορετικό αριθμό χαρακτήρων. Ορισμένα σύμβολα των γραμματοσειρών Unicode μπορούν να ζυγίσουν πολύ καλά. Αλλά τώρα δεν διακρίνονται από το γεγονός ότι δημιουργούνται για διαφορετικές κωδικοποιήσεις, αλλά από το γεγονός ότι ο κατασκευαστής γραμματοσειράς γεμίζει ή δεν γεμίζει τον ενιαίο χώρο κώδικα από αυτά ή άλλες μορφές φορέα προς το τέλος.

Krakoyabry αντί για ρωσικά γράμματα - Πώς να διορθώσετε

Ας δούμε τώρα πώς εμφανίζεται το κείμενο Crakozyabe αντί του κειμένου ή, με άλλα λόγια, πώς επιλέγεται η σωστή κωδικοποίηση για το ρωσικό κείμενο. Στην πραγματικότητα, ορίζεται στο πρόγραμμα στο οποίο δημιουργείτε ή επεξεργάζεστε αυτό το ίδιο κείμενο ή κώδικας χρησιμοποιώντας θραύσματα κειμένου.

Για την επεξεργασία και τη δημιουργία αρχείων κειμένου, χρησιμοποιώ προσωπικά πολύ καλά, κατά τη γνώμη μου. Ωστόσο, μπορεί να επισημάνει τη σύνταξη ακόμα καλές εκατοντάδες γλώσσες προγραμματισμού και σήμανση και επίσης έχει τη δυνατότητα να επεκταθεί με plugins. Διαβάστε μια λεπτομερή επισκόπηση αυτού του υπέροχου προγράμματος κάτω από τον σύνδεσμο.

Στο επάνω μενού του Notepad ++, υπάρχει ένα στοιχείο "κωδικοποίησης", όπου θα έχετε τη δυνατότητα να μετατρέψετε μια υπάρχουσα επιλογή σε ένα που χρησιμοποιείται στην προεπιλεγμένη τοποθεσία σας:

Στην περίπτωση ενός ιστότοπου στο Joomla 1,5 και άνω, καθώς και στην περίπτωση ενός ιστολογίου στο WordPress, θα πρέπει να επιλέξετε την επιλογή για να αποφύγετε την εμφάνιση του Krakoyar UTF 8 χωρίς BOM. Ποιο είναι το πρόθεμα BOM;

Το γεγονός είναι ότι όταν αναπτύχθηκε η κωδικοποίηση του ETF-16, για κάποιο λόγο αποφάσισε να στερεώσει ένα τέτοιο πράγμα σε αυτό ως τη δυνατότητα εγγραφής ενός κώδικα συμβόλου, τόσο σε άμεση αλληλουχία (για παράδειγμα, 0Α15) και στην αντίστροφη (150Α) . Και για να κατανοήσουν τα προγράμματα που οι κωδικοί ανάγνωσης ακολουθίας και εφευρέθηκε Bom. (Μάρκα παραγγελίας ή, με άλλα λόγια, υπογραφή), η οποία εκφράστηκε στην προσθήκη τριών επιπλέον bytes στην αρχή των εγγράφων.

Στην κωδικοποίηση UTF-8, δεν υπήρχε BOM στην κοινοπραξία Unicode και ως εκ τούτου προσθέτοντας υπογραφή (αυτά τα πιο γνωστά άλλα τρία bytes στην αρχή του εγγράφου) ορισμένα προγράμματα απλά αποτρέπουν την ανάγνωση του κώδικα. Επομένως, πάντα, κατά την αποθήκευση αρχείων στο UTF, πρέπει να επιλέξετε μια επιλογή χωρίς BOM (χωρίς υπογραφή). Έτσι είστε εκ των προτέρων Μαντείστε τον εαυτό σας από το Crackering.

Αυτό που είναι αξιοσημείωτο, ορισμένα προγράμματα στα Windows δεν γνωρίζουν πώς να το κάνουν αυτό (μην είστε σε θέση να αποθηκεύσετε κείμενο στο UTF-8 χωρίς BOM), για παράδειγμα, τα ίδια περίεργα σημειωματάρια. Αποθηκεύει το έγγραφο στο UTF-8, αλλά εξακολουθεί να προσθέτει υπογραφή στην αρχή της (τρεις επιπλέον bytes). Επιπλέον, αυτά τα bytes θα είναι πάντα τα ίδια - διαβάστε τον κώδικα σε άμεση ακολουθία. Αλλά στους διακομιστές, εξαιτίας αυτών των μικρών πραγμάτων, μπορεί να υπάρχει ένα πρόβλημα - οι ρωγμές θα βγουν έξω.

Επομένως, σε καμία περίπτωση Μην χρησιμοποιείτε τα συνηθισμένα παράθυρα σημειωματάριων Για να επεξεργαστείτε έγγραφα του ιστότοπού σας, αν δεν θέλετε την εμφάνιση της Krakoyarbra. Θεωρώ την τελευταία και ευκολότερη επιλογή για τον ήδη αναφερθείσα συντάκτη του Notepad ++, το οποίο πρακτικά δεν έχει μειονεκτήματα και αποτελείται από ένα από τα πλεονεκτήματα.

Στο Notepad ++ κατά την επιλογή μιας κωδικοποίησης, θα έχετε τη δυνατότητα να μετατρέψετε το κείμενο στην κωδικοποίηση UCS-2, η οποία είναι πολύ κοντά στο πρότυπο Unicode ουσιαστικά. Επίσης σε ένα μη τύπο μπορεί να κωδικοποιηθεί στο ANSI, δηλ. Όσον αφορά τη ρωσική γλώσσα, αυτό θα περιγραφεί ήδη από εμάς ακριβώς πάνω από τα Windows 1251. Πού προέρχονται αυτές οι πληροφορίες;

Είναι γραμμένο στο μητρώο του λειτουργικού σας συστήματος των Windows - το οποίο κωδικοποίηση είναι να επιλέξει στην περίπτωση του ANSI, τι να επιλέξει στην περίπτωση του ΚΑΕ (για τη ρωσική γλώσσα θα είναι CP866). Εάν εγκαταστήσετε άλλη προεπιλεγμένη γλώσσα στον υπολογιστή σας, τότε αυτές οι κωδικοποιήσεις θα αντικατασταθούν με παρόμοιο με την εκφόρτιση ANSI ή OEM για την ίδια γλώσσα.

Μετά από εσάς στο Notepad ++, αποθηκεύστε το έγγραφο στην κωδικοποίηση που χρειάζεστε ή ανοίξτε ένα έγγραφο από τον ιστότοπο για να επεξεργαστείτε, στη συνέχεια στην κάτω δεξιά γωνία του επεξεργαστή μπορείτε να δείτε το όνομά του:

Για να αποφύγετε το KrakoyarbrovΕκτός από τις ενέργειες που περιγράφονται παραπάνω, θα είναι χρήσιμο να εγγραφείτε στην κεφαλίδα του πηγαίου κώδικα όλων των σελίδων των πληροφοριών του ιστότοπου σχετικά με αυτή τη κωδικοποίηση, προκειμένου ο διακομιστής ή ο τοπικός ξενιστής που δεν συμβαίνει.

Σε γενικές γραμμές, σε όλες τις γλώσσες της σήμανσης υπερκειμένου εκτός από το HTML, χρησιμοποιείται μια ειδική διαφήμιση XML, η οποία καθορίζει την κωδικοποίηση κειμένου.

Πριν ξεκινήσετε να αποσυναρμολογήσετε τον κώδικα, το πρόγραμμα περιήγησης θα μάθει ποια έκδοση χρησιμοποιείται και πώς ακριβώς πρέπει να ερμηνεύσετε τους κωδικούς των χαρακτήρων αυτής της γλώσσας. Αλλά αυτό που είναι αξιοσημείωτο, σε περίπτωση που αποθηκεύσετε το έγγραφο στην προεπιλεγμένη Unicode, αυτή η δήλωση XML μπορεί να παραλειφθεί (η κωδικοποίηση θα θεωρηθεί UTF-8, εάν δεν υπάρχει BOM ή UTF-16 εάν υπάρχει BOM).

Στην περίπτωση εγγράφου της γλώσσας HTML για να καθορίσει τη χρησιμοποιούμενη κωδικοποίηση meta στοιχείοπου έχει συνταγογραφηθεί μεταξύ της ετικέτας ανοίγματος και κλεισίματος:

... ...

Αυτή η καταχώρηση είναι αρκετά διαφορετική από την αποδεκτή Β, αλλά αντιστοιχεί πλήρως στο πρόσφατα εισάγεται αργά από το πρότυπο HTML 5, και θα γίνει απολύτως σωστά κατανοητό από τα προγράμματα περιήγησης που χρησιμοποιούνται επί του παρόντος.

Θεωρητικά, το META στοιχείο με ένδειξη της κωδικοποίησης HTML του εγγράφου θα είναι καλύτερο να τεθεί Όσο το δυνατόν ψηλότερα στην κεφαλίδα αποβάθραςΈτσι, κατά τη διάρκεια της συνάντησης στο κείμενο του πρώτου σημείου δεν είναι από το βασικό ANSI (το οποίο πάντα διαβάζει πάντα και σε οποιαδήποτε παραλλαγή) το πρόγραμμα περιήγησης πρέπει να έχει ήδη πληροφορίες σχετικά με τον τρόπο ερμηνείας των κωδίκων αυτών των χαρακτήρων.

Καλή σου τύχη! Σε διφορούμενες συναντήσεις στην ιστοσελίδα του ιστολογίου

Μπορεί να σας ενδιαφέρει

Ποιες είναι οι διευθύνσεις URL από τη διαφορά μεταξύ απόλυτων και σχετικών συνδέσεων για τον ιστότοπο
Το OpenServer είναι ένας σύγχρονος τοπικός διακομιστής και ένα παράδειγμα χρήσης του WordPress για εγκατάσταση σε έναν υπολογιστή
Τι είναι το CHMOD, το οποίο τα δικαιώματα πρόσβασης για την εκχώρηση αρχείων και φακέλων (777, 755, 666) και πώς να κάνετε μέσω της PHP
Αναζήτηση Yandex στην τοποθεσία και στο ηλεκτρονικό κατάστημα

Σήμερα θα σας μιλήσουμε για το πού προέρχονται από το Krakoyarbra από και σε προγράμματα, τα οποία υπάρχουν κωδικοποιήσεις κειμένου και ποιο από αυτά πρέπει να χρησιμοποιηθεί. Ας εξετάσουμε λεπτομερώς την ιστορία της ανάπτυξής τους, που κυμαίνονται από τη βασική ASCII, καθώς και τις εκτεταμένες εκδόσεις του CP866, KOI8-R, Windows 1251 και που τελειώνουν με σύγχρονες κωδικές των κοινοπραξίας Unicode UTF 16 και 8. Πίνακας περιεχομένων: Κάποιος αυτή οι πληροφορίες ενδέχεται να φαίνονται περιττές, αλλά θα γνωρίζατε πόσα ερωτήματα έρχονται σε μένα με ακρίβεια τις ρωγμές (χωρίς να διαβάζουν ένα σύνολο χαρακτήρων). Τώρα θα έχω την ευκαιρία να στείλω σε όλους στο κείμενο αυτού του άρθρου και να αναζητήσουμε ανεξάρτητα τα κοπάδια σας. Λοιπόν, ετοιμαστείτε να απορροφήσετε τις πληροφορίες και να προσπαθήσετε να παρακολουθήσετε την αφήγηση.

ASCII - βασική κωδικοποίηση κειμένου latiza

Η ανάπτυξη κωδικοποιητών κειμένου συμβαίνει ταυτόχρονα με το σχηματισμό της βιομηχανίας πληροφορικής και κατά τη διάρκεια αυτής της περιόδου είχαν χρόνο να υποβληθούν σε αρκετές αλλαγές. Ιστορικά, όλα ξεκίνησαν με ένα μάλλον επιβλαβές στη ρωσική προφορά του EBCDIC, γεγονός που επέτρεψε την κωδικοποίηση των γραμμάτων του λατινικού αλφαβήτου, των αραβικών αριθμών και των σημείων στίξης με σύμβολα ελέγχου. Αλλά ακόμα το σημείο εκκίνησης για την ανάπτυξη σύγχρονων κωδικοποιητών κειμένου θα πρέπει να θεωρείται διάσημος Ascii. (Ο αμερικανικός τυποποιημένος κωδικός για την ανταλλαγή πληροφοριών, η οποία στα ρωσικά προφέρεται συνήθως ως "Aski"). Περιγράφει τους πρώτους 128 χαρακτήρες από τους πιο συχνά χρησιμοποιούμενους αγγλόφωνους χρήστες - Λατινικά γράμματα, αραβικούς αριθμούς και σημεία στίξης. Ακόμη και σε αυτούς τους 128 χαρακτήρες που περιγράφονται στο ASCII, ορισμένα σύμβολα εξυπηρέτησης θρυμματίζονται από αγκύλες, πλέξιμο, αστερίσκους κ.λπ. Στην πραγματικότητα, εσείς ο ίδιος μπορεί να τους δει:
Αυτοί οι 128 χαρακτήρες από την αρχική έκδοση του ASCII έχουν γίνει το πρότυπο και σε οποιαδήποτε άλλη κωδικοποίηση θα συναντήσετε σίγουρα και θα είστε σίγουρα ότι θα είναι κατά τέτοιο τρόπο. Αλλά το γεγονός είναι ότι με τη βοήθεια ενός byte των πληροφοριών, μπορείτε να κωδικοποιήσετε όχι 128, αλλά έως και 256 διαφορετικές τιμές (δύο φορές στο βαθμό οκτώ ισούται με 256), έτσι μια ολόκληρη σειρά εμφανίστηκε μετά τη βασική έκδοση του Αίτηση Προηγμένες κωδικοποιήσεις ASCIIΕκτός από 128 κύρια σημεία, ήταν επίσης δυνατή η κωδικοποίηση των εθνικών συμβόλων κωδικοποίησης (για παράδειγμα, ρωσικά). Εδώ, πιθανώς, αξίζει λίγο περισσότερο για το σύστημα αριθμών που χρησιμοποιούνται στην περιγραφή. Πρώτον, όπως γνωρίζετε τα πάντα, ο υπολογιστής λειτουργεί μόνο με αριθμούς σε ένα δυαδικό σύστημα, δηλαδή με μηδενικά και μονάδες ("Boulev Algebra", αν κάποιος που πραγματοποιήθηκε στο Ινστιτούτο ή στο σχολείο). Ένα byte αποτελείται από οκτώ bit, καθένα από τα οποία είναι μια εξάρτηση σε ένα πτυχίο, ξεκινώντας από το μηδέν και σε δύο στο έβδομο:
Δεν είναι δύσκολο να καταλάβουμε ότι όλοι οι πιθανοί συνδυασμοί μηδενικών και μονάδων σε ένα τέτοιο σχεδιασμό μπορούν να είναι 256. Μεταφράστε τον αριθμό από το δυαδικό σύστημα στο δεκαδικό είναι αρκετά απλό. Είναι απαραίτητο να διπλώσετε απλώς όλους τους βαθμούς των δύο πάνω από αυτό που βρίσκεται. Στο παράδειγμά μας, αποδεικνύεται 1 (2 έως το βαθμό μηδέν) συν 8 (δύο έως βαθμούς 3), συν 32 (δύο φορές στον πέμπτο βαθμό), συν 64 (στο έβδομο), συν 128 (στο έβδομο), συν 128 (στο έβδομο) . Το σύνολο λαμβάνει 233 σε ένα σύστημα δεκαδικού αριθμού. Όπως μπορείτε να δείτε, όλα είναι πολύ απλά. Αλλά αν κοιτάξετε το τραπέζι με χαρακτήρες ASCII, θα δείτε ότι παρουσιάζονται σε δεκαεξαδική κωδικοποίηση. Για παράδειγμα, ο "αστερίσκος" αντιστοιχεί στον παράδεισο ενός δεκαεξαδικού αριθμού 2α. Πιθανώς, γνωρίζετε ότι σε ένα σύστημα δεκαεξαδικού αριθμού, τα λατινικά γράμματα από ένα (μέσο δέκα) έως f (μέσο δεκαπέντε) χρησιμοποιούνται σε ένα σύστημα δεκαεξαδικού αριθμού. Καλά, έτσι για Μεταφράστε δυαδικούς αριθμούς σε δεκαεξαδικό Θέρετρο στον επόμενο απλό και οπτικό τρόπο. Κάθε byte των πληροφοριών χωρίζεται σε δύο μέρη τεσσάρων δυαδικών ψηφίων, όπως φαίνεται στο screenshot παραπάνω. Έτσι Σε κάθε μισό του byte, ο δυαδικός κώδικας μπορεί να κωδικοποιηθεί μόνο για δεκαέξι τιμές (δύο στον τέταρτο βαθμό), το οποίο μπορεί εύκολα να αντιπροσωπεύεται από δεκαεξαδικό. Επιπλέον, στο αριστερό ήμισυ του byte, θα χρειαστεί να εξεταστεί και πάλι από το μηδέν και όχι όπως φαίνεται στο στιγμιότυπο οθόνης. Ως αποτέλεσμα, από μη καλούς υπολογιστές, παίρνουμε ότι ο αριθμός E9 κωδικοποιείται στο στιγμιότυπο οθόνης. Ελπίζω ότι η πορεία της συλλογιστικής μου και η στερεοποίηση αυτής της rebus ήταν κατανοητή. Λοιπόν, τώρα θα συνεχίσουμε, πραγματικά μιλάμε για το κείμενο που κωδικοποιεί.

Εκτεταμένες εκδόσεις του Aski - CP866 και Koi8-R που κωδικοποιούν με ψευδογραφία

Έτσι, αρχίσαμε να μιλάμε για την ASCII, η οποία ήταν σαν ένα σημείο εκκίνησης για την ανάπτυξη όλων των σύγχρονων κωδικοποιητών (Windows 1251, Unicode, UTF 8). Αρχικά, τοποθετήθηκε μόνο 128 σημάδια του λατινικού αλφαβήτου, των αραβικών αριθμών και κάτι άλλο εκεί, αλλά στην εκτεταμένη έκδοση ήταν δυνατή η χρήση και οι 256 τιμές που μπορούν να κωδικοποιηθούν σε μία πληροφορίες Pate. Εκείνοι. Μια ευκαιρία να προσθέσετε σύμβολα των γραμμάτων της γλώσσας του σε Aska. Εδώ θα χρειαστεί να αποστασιοποιηθεί και πάλι για να αποσαφηνιστεί - Γιατί χρειάζεστε κωδικοποίηση κειμένου Και γιατί είναι τόσο σημαντικό. Τα σύμβολα στην οθόνη του υπολογιστή σας σχηματίζονται με βάση δύο πράγματα - σύνολο μορφών φορέα (παρουσιάσεις) όλων των ειδών χαρακτήρων (είναι σε αρχεία με γραμματοσειρές που είναι εγκατεστημένες στον υπολογιστή σας) και τον κώδικα που σας επιτρέπει να τραβήξετε έξω Αυτό το σύνολο μορφών φορέα (αρχείο γραμματοσειράς) ο χαρακτήρας που θέλετε να εισάγετε στη σωστή θέση. Είναι σαφές ότι οι γραμματοσειρές είναι υπεύθυνες για τις φορικές μορφές, αλλά το λειτουργικό σύστημα και τα προγράμματα που χρησιμοποιούνται σε αυτήν είναι υπεύθυνα για την κωδικοποίηση. Εκείνοι. Οποιοδήποτε κείμενο στον υπολογιστή σας θα είναι ένα σύνολο bytes σε καθένα από τα οποία κωδικοποιείται ένα μόνο σύμβολο αυτού του κειμένου. Το πρόγραμμα που εμφανίζει αυτό το κείμενο στην οθόνη (επεξεργαστής κειμένου, πρόγραμμα περιήγησης κ.λπ.), κατά την ανάλυση του κώδικα, διαβάζει την κωδικοποίηση του επόμενου σημείου και αναζητήσεις για τη φόρμα φορέα που αντιστοιχεί στο αρχείο που επιθυμείται στο επιθυμητό αρχείο γραμματοσειράς που είναι συνδεδεμένο Εμφανίστε αυτό το έγγραφο κειμένου. Όλα είναι απλά και τρίτα. Έτσι, να κωδικοποιήσει οποιοδήποτε σύμβολο που χρειαζόμαστε (για παράδειγμα, από το εθνικό αλφάβητο), πρέπει να ολοκληρωθούν δύο προϋποθέσεις - η μορφή φορέα αυτού του σημείου θα πρέπει να είναι στη χρήση γραμματοσειράς και αυτό το σύμβολο θα μπορούσε να κωδικοποιηθεί στις εκτεταμένες κωδικοποιήσεις ASCII σε ένα byte σε ένα byte . Επομένως, υπάρχει μια ολόκληρη δέσμη τέτοιων επιλογών. Μόνο για την κωδικοποίηση των συμβόλων της ρωσικής γλώσσας υπάρχουν αρκετές ποικιλίες εκτεταμένων κοιωτώνων. Για παράδειγμα, εμφανίστηκε αρχικά Cp866.Στην οποία ήταν δυνατό να χρησιμοποιηθούν τα σύμβολα του ρωσικού αλφαβήτου και ήταν μια εκτεταμένη έκδοση του ASCII. Εκείνοι. Το πάνω μέρος του συμπίπτει εντελώς με τη βασική έκδοση του Aski (128 σύμβολα των λατινικών, αριθμών και ακόμη και κάθε labuda), το οποίο αντιπροσωπεύεται στο στιγμιότυπο οθόνης ελαφρώς υψηλότερο, αλλά ήδη το κάτω μέρος του πίνακα κωδικοποίησης CP866 είχε το καθορισμένο στο στιγμιότυπο οθόνης Ελαφρώς κάτω από την άποψη και επιτρέπεται να κωδικοποιήσει άλλα 128 σημάδια (ρωσικά γράμματα και οποιοδήποτε ψευδοχογραφικό):
Βλέπετε, στη δεξιά στήλη, οι αριθμοί αρχίζουν με 8, επειδή Οι αριθμοί από 0 έως 7 αναφέρονται στο βασικό τμήμα του ASCII (βλέπε το πρώτο στιγμιότυπο οθόνης). Έτσι Το ρωσικό γράμμα "M" στο CP866 θα έχει κωδικό 9c (είναι στη διασταύρωση των αντίστοιχων γραμμών με 9 και τη στήλη με έναν αριθμό C σε ένα εξακρυδωτό σύστημα αριθμού), το οποίο μπορεί να γραφτεί σε μία πληροφορίες byte και αν Υπάρχει μια κατάλληλη γραμματοσειρά με ρωσικούς χαρακτήρες, αυτή η επιστολή χωρίς προβλήματα θα εμφανιστεί στο κείμενο. Από πού προέρχεται αυτή η ποσότητα Ψευδοχογράφους στο CP866.; Είναι όλο το γεγονός ότι αυτή η κωδικοποίηση για το ρωσικό κείμενο αναπτύχθηκε σε αυτά τα λαμπρά χρόνια, όταν δεν υπήρχε τέτοια διανομή γραφικών λειτουργικών συστημάτων όπως τώρα. Και στο Dost, και παρόμοιες εργασίες κειμένου, η ψευδογραφική επέτρεψε τουλάχιστον με κάποιο τρόπο να διαφοροποιήσει τον σχεδιασμό των κειμένων και ως εκ τούτου αφθονούν με CP866 και όλες τις άλλες σειρές της από την απόρριψη εκτεταμένων εκδόσεων της ASCA. CP866 Κατανεμημένη εταιρεία IBM, αλλά επιπλέον, αναπτύχθηκαν ένας αριθμός κωδικοποιητών για τα σύμβολα της ρωσικής γλώσσας, για παράδειγμα, ο ίδιος τύπος (εκτεταμένος ascii) μπορεί να αποδοθεί Koi8-r.:
Η αρχή της εργασίας της παρέμεινε η ίδια με το CP866 που περιγράφεται αργότερα - κάθε σύμβολο κειμένου κωδικοποιείται από ένα μόνο byte. Το στιγμιότυπο οθόνης δείχνει το δεύτερο μισό του πίνακα Koi8-R, επειδή Το πρώτο ημίχρονο είναι πλήρως σύμφωνο με τη βάση ASUS, η οποία εμφανίζεται στο πρώτο στιγμιότυπο οθόνης σε αυτό το άρθρο. Μεταξύ των χαρακτηριστικών της κωδικοποίησης KOI8-R, μπορεί να σημειωθεί ότι τα ρωσικά γράμματα στο τραπέζι του δεν είναι αλφαβητική σειρά, όπως αυτή, για παράδειγμα, το CP866. Αν κοιτάξετε το πρώτο στιγμιότυπο οθόνης (βάση βάσης, το οποίο εισέρχεται σε όλες τις εκτεταμένες κωδικοποιήσεις), τότε παρατηρήστε ότι στο Koi8-R, τα ρωσικά γράμματα βρίσκονται στα ίδια τραπέζια του τραπεζιού με τα γράμματα του λατινικού αλφαβήτου από το πρώτο μέρος του το τραπέζι. Αυτό έγινε για την ευκολία εναλλαγής από τα ρωσικά σύμβολα στα λατινικά, απορρίπτοντας μόνο ένα bit (δύο στον έβδομο βαθμό ή 128).

Windows 1251 - μια σύγχρονη έκδοση του ASCII και γιατί βγαίνει από τις ρωγμές

Η περαιτέρω ανάπτυξη των κωδικοποιητών κειμένου οφείλεται στο γεγονός ότι τα γραφικά λειτουργικά συστήματα και η ανάγκη χρήσης των ψευδογραφικών στοιχείων σε αυτά κέρδισαν δημοτικότητα. Ως αποτέλεσμα, μια ολόκληρη ομάδα προέκυψε, η οποία, στην ουσία τους, εξακολουθούσε να προηγούνται οι προηγμένες εκδόσεις του Aski (ένα σύμβολο κειμένου κωδικοποιείται μόνο με μία μόνο byput της πληροφόρησης), αλλά χωρίς να χρησιμοποιήσετε ψευδοχογράφους χαρακτήρες. Αντιμετωπίστηκαν τη λεγόμενη κωδικοποίηση ANSI, τα οποία αναπτύχθηκαν από το αμερικανικό Ινστιτούτο Τυποποίησης. Το όνομα του Cyrillic εξακολουθούσε να χρησιμοποιήθηκε στο Surchanting για μια επιλογή με την υποστήριξη της ρωσικής γλώσσας. Παράδειγμα που μπορεί να υπηρετήσει Windows 1251.. Ήταν ευνοϊκά διαφορετικά από τα προηγουμένως χρησιμοποιούμενα CP866 και KOI8-R στο ότι ο τόπος των χαρακτήρων του ψευδοογραφικού σε αυτό πήρε τα σύμβολα που λείπουν της ρωσικής τυπογραφίας (το σήμα μείωσης), καθώς και τα σύμβολα που χρησιμοποιούνται κοντά στο ρωσικό σλαβικό Γλώσσες (Ουκρανικά, Λευκορωσικά, κ.λπ.):
Λόγω μιας τέτοιας αφθονίας της κωδικοποίησης της ρωσικής γλώσσας, οι κατασκευαστές των γραμματοσειρών και οι κατασκευαστές λογισμικού είχαν συνεχώς έναν πονοκέφαλο, και μαζί σας, αγαπητοί αναγνώστες, συχνά πήρε αυτούς τους πιο διαβόητους ΚρυσαμπρύΌταν η σύγχυση διδάσκεται με την έκδοση που χρησιμοποιήθηκε στο κείμενο. Πολύ συχνά βγήκαν κατά την αποστολή και λήψη μηνυμάτων μέσω ηλεκτρονικού ταχυδρομείου, οι οποίες οδήγησαν στη δημιουργία πολύ περίπλοκων πινάκων διανομής, οι οποίες, στην πραγματικότητα, δεν μπορούσαν να επιλύσουν αυτό το πρόβλημα στη ρίζα και συχνά χρησιμοποιήθηκαν οι χρήστες αλληλογραφίας με λατινικά γράμματα Για να αποφύγετε τις περιβόητες Krakozyabs τη χρήση ρωσικών κωδικοποιητών αυτών CP866, KOI8-R ή Windows 1251. Στην ουσία, η Krakoyarbra, που προσδίδει αντί του ρωσικού κειμένου, ήταν το αποτέλεσμα της λανθασμένης χρήσης της κωδικοποίησης αυτής της γλώσσας, η οποία δεν αντιστοιχούσε Το ένα στο οποίο το μήνυμα κειμένου κωδικοποιήθηκε αρχικά. Ας υποθέσουμε εάν τα σύμβολα που κωδικοποιούνται με CP866, προσπαθήστε να εμφανιστούν χρησιμοποιώντας τον πίνακα κωδικών Windows 1251, τότε αυτά τα πιο ραγισμένα (χωρίς νόημα σύνολο χαρακτήρων) και βγείτε έξω, αντικαθιστώντας πλήρως το κείμενο του μηνύματος.
Μια παρόμοια κατάσταση συμβαίνει πολύ συχνά εμφανίζεται κατά τη δημιουργία και τη διαμόρφωση ιστότοπων, φόρουμ ή ιστολογίων, όταν το κείμενο με ρωσικούς χαρακτήρες κατά λάθος δεν αποθηκεύεται στην ίδια κωδικοποίηση που χρησιμοποιείται στον προεπιλεγμένο ιστότοπο ή όχι στον επεξεργαστή κειμένου, το οποίο προσθέτει σε Ο κωδικός Sebestin δεν είναι ορατό γυμνό μάτι. Στο τέλος, μια τέτοια κατάσταση με πολλές κωδικοποιήσεις και συνεχώς σέρνεται από cranebrams, πολλές κουρασμένες, υπήρχαν προϋποθέσεις για τη δημιουργία μιας νέας παγκόσμιας παραλλαγής, η οποία θα αντικατέστησε όλα τα υπάρχοντα και να λύσει, τέλος, στη ρίζα του προβλήματος με την εμφάνιση του μη Αναγνωρισμένα κείμενα. Επιπλέον, υπήρχε πρόβλημα των γλωσσών παρόμοιων κινεζικών, όπου τα σύμβολα της γλώσσας ήταν πολύ περισσότερο από 256.

Unicode (Unicode) - Universal Codes UTF 8, 16 και 32

Αυτά τα χιλιάδες σημάδια της γλωσσικής ομάδας της Νοτιοανατολικής Ασίας δεν μπορούσαν να περιγραφούν σε μία πληροφορίες με Pape που διατέθηκαν για κωδικοποίηση χαρακτήρων σε προηγμένες εκδόσεις ASCII. Ως αποτέλεσμα, δημιουργήθηκε μια κοινοπραξία που ονομάζεται Unicode (Unicode - κοινοπραξία Unicode) στη συνεργασία πολλών ηγέτες της βιομηχανίας (εκείνοι που παράγουν ένα λογισμικό που κωδικοποιεί το σίδηρο, ο οποίος δημιουργεί γραμματοσειρές) που ενδιαφέρουν την εμφάνιση ενός παγκόσμιου κειμένου που κωδικοποιεί. Η πρώτη παραλλαγή που δημοσιεύθηκε υπό την αιγίδα της κοινοπραξίας Unicode ήταν UTF 32.. Το ψηφίο στο όνομα της κωδικοποίησης σημαίνει τον αριθμό των δυαδικών ψηφίων που χρησιμοποιείται για την κωδικοποίηση ενός συμβόλου. Τα 32 bits είναι 4 bytes πληροφοριών που θα χρειαστούν για την κωδικοποίηση ενός ενιαίου σημείου στη νέα κωδικοποίηση Universal UTF. Ως αποτέλεσμα, το ίδιο αρχείο με το κείμενο που κωδικοποιείται στην εκτεταμένη έκδοση του ASCII και UTF-32 θα έχει στην τελευταία περίπτωση θα έχει το μέγεθος (ζυγίζει) τέσσερις φορές τέσσερις φορές. Είναι κακό, αλλά τώρα έχουμε την ευκαιρία να κωδικοποιήσουμε τον αριθμό των σημείων ίσο με δύο έως τριάντα δεύτερους βαθμούς με τη βοήθεια του UTF ( Δισεκατομμύρια χαρακτήρεςπου θα καλύπτει οποιαδήποτε πραγματική αξία με ένα κολοσσιαίο περιθώριο). Όμως, πολλές χώρες με τις γλώσσες της Ευρωπαϊκής Ομάδας έχουν τόσο τεράστιο αριθμό σημείων για χρήση στην κωδικοποίηση καθόλου και δεν υπήρχαν, ωστόσο, όταν χρησιμοποιούν το UTF-32, δεν έλαβαν τέσσερις φορές αύξηση Στο βάρος των εγγράφων κειμένου και ως εκ τούτου, μια αύξηση των αποθηκευμένων δεδομένων του Διαδικτύου και των αποθηκευμένων οχημάτων. Αυτό είναι πολύ και κανείς δεν θα μπορούσε να προσφέρει τέτοια απόβλητα. Ως αποτέλεσμα της εμφάνισης της ανάπτυξης του Unicode UTF-16.που αποδείχθηκε τόσο επιτυχημένη που υιοθετήθηκε από προεπιλογή ως βασικό χώρο για όλους τους χαρακτήρες που χρησιμοποιούμε. Χρησιμοποιεί δύο bytes για να κωδικοποιήσει ένα σημάδι. Ας δούμε πώς μοιάζει αυτό το πράγμα. Στο λειτουργικό σύστημα των Windows, μπορείτε να περάσετε κατά μήκος της διαδρομής "Έναρξη" - "Προγράμματα" - "Standard" - "Υπηρεσία" - "πίνακας χαρακτήρων". Ως αποτέλεσμα, ένας πίνακας ανοίγει με φορέα μορφές όλων των εγκατεστημένων στις γραμματοσειρές σας. Εάν επιλέξετε σε "πρόσθετες παραμέτρους" ένα σύνολο χαρακτήρων Unicode, μπορείτε να δείτε για κάθε γραμματοσειρά ξεχωριστά το όλο φάσμα των χαρακτήρων που περιλαμβάνονται σε αυτό. Με την ευκαιρία, κάνοντας κλικ σε οποιοδήποτε από αυτά, μπορείτε να το δείτε δύο Κωδικός σε μορφή UTF-16που αποτελείται από τέσσερα δεκαεξαδικά ψηφία:
Πόσοι χαρακτήρες μπορούν να κωδικοποιηθούν στο UTF-16 χρησιμοποιώντας 16 bits; 65 536 (δύο έως δεκαέξι), και αυτός ο αριθμός ελήφθη για τον βασικό χώρο στο Unicode. Επιπλέον, υπάρχουν τρόποι να κωδικοποιήσετε με αυτό και περίπου δύο εκατομμύρια χαρακτήρες, αλλά περιορίζεται στον εκτεταμένο χώρο σε ένα εκατομμύριο συμβόλων κειμένου. Αλλά ακόμα και αυτή η επιτυχημένη έκδοση της κωδικοποίησης του Unicode δεν έφερε μεγάλη ικανοποίηση από εκείνους που έγραψαν, για παράδειγμα, τα προγράμματα μόνο στα αγγλικά, επειδή έχουν, μετά την εναλλαγή από την εκτεταμένη έκδοση του ASCII στο UTF-16, το βάρος των εγγράφων αυξήθηκε δύο φορές (ένα byte ανά ένα σύμβολο στο Aski και δύο bytes στο ίδιο σύμβολο στο UTF-16). Αυτός είναι ακριβώς να ικανοποιηθεί ο καθένας και ο καθένας στην κοινοπραξία Unicode αποφασίστηκε. Ελάτε με κωδικοποίηση μεταβλητό μήκος. Ονομάστηκε UTF-8. Παρά τα οκτώ στον τίτλο, έχει πραγματικά ένα μεταβλητό μήκος, δηλ. Κάθε σύμβολο κειμένου μπορεί να κωδικοποιηθεί σε μια αλληλουχία ενός έως έξι byte. Στην πράξη, το UTF-8 χρησιμοποιεί μόνο μια σειρά από ένα έως τέσσερις byte, επειδή δεν υπάρχει τίποτα ακόμη θεωρητικά δυνατό να υποβάλει οτιδήποτε στα τέσσερα bytes του κώδικα. Όλα τα λατινικά σημάδια κωδικοποιούνται σε ένα byte, καθώς και στην παλιά καλή ascii. Αυτό που είναι αξιοσημείωτο, στην περίπτωση της κωδικοποίησης μόνο των λατινικών, ακόμη και τα προγράμματα που δεν καταλαβαίνουν το Unicode θα διαβάσουν ακόμα τι κωδικοποιείται στο UTF-8. Εκείνοι. Το βασικό μέρος της Aska απλά μετατράπηκε σε αυτό από την κοινοπραξία Unicode. Τα κυριλλικά σημάδια στο UTF-8 κωδικοποιούνται σε δύο byte και, για παράδειγμα, στη Γεωργία - σε τρία byte. Η κοινοπραξία Unicode μετά τη δημιουργία UTF 16 και 8 λύσει το κύριο πρόβλημα - τώρα έχουμε Γραμματοσειρές υπάρχει ένας χώρος ενιαίου κωδικού. Και τώρα οι κατασκευαστές τους παραμένουν μόνο με βάση τις δυνάμεις και τις ευκαιρίες τους για να το γεμίσουν με φορτικές μορφές συμβόλων κειμένου. Στο παρακάτω πίνακα συμβόλων, μπορεί να φανεί ότι διαφορετικές γραμματοσειρές υποστηρίζουν έναν διαφορετικό αριθμό χαρακτήρων. Ορισμένα σύμβολα των γραμματοσειρών Unicode μπορούν να ζυγίσουν πολύ καλά. Αλλά τώρα δεν διακρίνονται από το γεγονός ότι δημιουργούνται για διαφορετικές κωδικοποιήσεις, αλλά από το γεγονός ότι ο κατασκευαστής γραμματοσειράς γεμίζει ή δεν γεμίζει τον ενιαίο χώρο κώδικα από αυτά ή άλλες μορφές φορέα προς το τέλος.

Krakoyabry αντί για ρωσικά γράμματα - Πώς να διορθώσετε

Ας δούμε τώρα πώς εμφανίζεται το κείμενο Crakozyabe αντί του κειμένου ή, με άλλα λόγια, πώς επιλέγεται η σωστή κωδικοποίηση για το ρωσικό κείμενο. Στην πραγματικότητα, ορίζεται στο πρόγραμμα στο οποίο δημιουργείτε ή επεξεργάζεστε αυτό το ίδιο κείμενο ή κώδικας χρησιμοποιώντας θραύσματα κειμένου. Για την επεξεργασία και τη δημιουργία αρχείων κειμένου, χρησιμοποιώ πολύ καλά, κατά τη γνώμη μου, HTML και PHP Editor Notepad ++. Ωστόσο, μπορεί να επισημάνει τη σύνταξη ακόμα καλές εκατοντάδες γλώσσες προγραμματισμού και σήμανση και επίσης έχει τη δυνατότητα να επεκταθεί με plugins. Διαβάστε μια λεπτομερή επισκόπηση αυτού του υπέροχου προγράμματος κάτω από τον σύνδεσμο. Στο επάνω μενού του Notepad ++, υπάρχει ένα στοιχείο "κωδικοποίησης", όπου θα έχετε τη δυνατότητα να μετατρέψετε μια υπάρχουσα επιλογή σε ένα που χρησιμοποιείται στην προεπιλεγμένη τοποθεσία σας:
Στην περίπτωση ενός ιστότοπου στο Joomla 1,5 και άνω, καθώς και στην περίπτωση ενός ιστολογίου στο WordPress, θα πρέπει να επιλέξετε την επιλογή για να αποφύγετε την εμφάνιση του Krakoyar UTF 8 χωρίς BOM. Ποιο είναι το πρόθεμα BOM; Το γεγονός είναι ότι όταν αναπτύχθηκε η κωδικοποίηση του ETF-16, για κάποιο λόγο αποφάσισε να στερεώσει ένα τέτοιο πράγμα σε αυτό ως τη δυνατότητα εγγραφής ενός κώδικα συμβόλου, τόσο σε άμεση αλληλουχία (για παράδειγμα, 0Α15) και στην αντίστροφη (150Α) . Και για να κατανοήσουν τα προγράμματα που οι κωδικοί ανάγνωσης ακολουθίας και εφευρέθηκε Bom. (Μάρκα παραγγελίας ή, με άλλα λόγια, υπογραφή), η οποία εκφράστηκε στην προσθήκη τριών επιπλέον bytes στην αρχή των εγγράφων. Στην κωδικοποίηση UTF-8, δεν υπήρχε BOM στην κοινοπραξία Unicode και ως εκ τούτου προσθέτοντας υπογραφή (αυτά τα πιο γνωστά άλλα τρία bytes στην αρχή του εγγράφου) ορισμένα προγράμματα απλά αποτρέπουν την ανάγνωση του κώδικα. Επομένως, πάντα, κατά την αποθήκευση αρχείων στο UTF, πρέπει να επιλέξετε μια επιλογή χωρίς BOM (χωρίς υπογραφή). Έτσι είστε εκ των προτέρων Μαντείστε τον εαυτό σας από το Crackering. Αυτό που είναι αξιοσημείωτο, ορισμένα προγράμματα στα Windows δεν γνωρίζουν πώς να το κάνουν αυτό (μην είστε σε θέση να αποθηκεύσετε κείμενο στο UTF-8 χωρίς BOM), για παράδειγμα, τα ίδια περίεργα σημειωματάρια. Αποθηκεύει το έγγραφο στο UTF-8, αλλά εξακολουθεί να προσθέτει υπογραφή στην αρχή της (τρεις επιπλέον bytes). Επιπλέον, αυτά τα bytes θα είναι πάντα τα ίδια - διαβάστε τον κώδικα σε άμεση ακολουθία. Αλλά στους διακομιστές, εξαιτίας αυτών των μικρών πραγμάτων, μπορεί να υπάρχει ένα πρόβλημα - οι ρωγμές θα βγουν έξω. Επομένως, σε καμία περίπτωση Μην χρησιμοποιείτε τα συνηθισμένα παράθυρα σημειωματάριων Για να επεξεργαστείτε έγγραφα του ιστότοπού σας, αν δεν θέλετε την εμφάνιση της Krakoyarbra. Θεωρώ την τελευταία και ευκολότερη επιλογή για τον ήδη αναφερθείσα συντάκτη του Notepad ++, το οποίο πρακτικά δεν έχει μειονεκτήματα και αποτελείται από ένα από τα πλεονεκτήματα. Στο Notepad ++ κατά την επιλογή μιας κωδικοποίησης, θα έχετε τη δυνατότητα να μετατρέψετε το κείμενο στην κωδικοποίηση UCS-2, η οποία είναι πολύ κοντά στο πρότυπο Unicode ουσιαστικά. Επίσης σε ένα μη τύπο μπορεί να κωδικοποιηθεί στο ANSI, δηλ. Όσον αφορά τη ρωσική γλώσσα, αυτό θα περιγραφεί ήδη από εμάς ακριβώς πάνω από τα Windows 1251. Πού προέρχονται αυτές οι πληροφορίες; Είναι γραμμένο στο μητρώο του λειτουργικού σας συστήματος των Windows - το οποίο κωδικοποίηση είναι να επιλέξει στην περίπτωση του ANSI, τι να επιλέξει στην περίπτωση του ΚΑΕ (για τη ρωσική γλώσσα θα είναι CP866). Εάν εγκαταστήσετε άλλη προεπιλεγμένη γλώσσα στον υπολογιστή σας, τότε αυτές οι κωδικοποιήσεις θα αντικατασταθούν με παρόμοιο με την εκφόρτιση ANSI ή OEM για την ίδια γλώσσα. Μετά από εσάς στο Notepad ++, αποθηκεύστε το έγγραφο στην κωδικοποίηση που χρειάζεστε ή ανοίξτε ένα έγγραφο από τον ιστότοπο για να επεξεργαστείτε, στη συνέχεια στην κάτω δεξιά γωνία του επεξεργαστή μπορείτε να δείτε το όνομά του: Για να αποφύγετε το KrakoyarbrovΕκτός από τις ενέργειες που περιγράφονται παραπάνω, θα είναι χρήσιμο να εγγραφείτε στην κεφαλίδα του πηγαίου κώδικα όλων των σελίδων των πληροφοριών του ιστότοπου σχετικά με αυτή τη κωδικοποίηση, προκειμένου ο διακομιστής ή ο τοπικός ξενιστής που δεν συμβαίνει. Σε γενικές γραμμές, σε όλες τις γλώσσες της σήμανσης υπερκειμένου εκτός από το HTML, χρησιμοποιείται μια ειδική διαφήμιση XML, η οποία καθορίζει την κωδικοποίηση κειμένου.< ? xml version= "1.0" encoding= "windows-1251" ? > Πριν ξεκινήσετε να αποσυναρμολογήσετε τον κώδικα, το πρόγραμμα περιήγησης θα μάθει ποια έκδοση χρησιμοποιείται και πώς ακριβώς πρέπει να ερμηνεύσετε τους κωδικούς των χαρακτήρων αυτής της γλώσσας. Αλλά αυτό που είναι αξιοσημείωτο, σε περίπτωση που αποθηκεύσετε το έγγραφο στην προεπιλεγμένη Unicode, αυτή η δήλωση XML μπορεί να παραλειφθεί (η κωδικοποίηση θα θεωρηθεί UTF-8, εάν δεν υπάρχει BOM ή UTF-16 εάν υπάρχει BOM). Στην περίπτωση εγγράφου της γλώσσας HTML για να καθορίσει τη χρησιμοποιούμενη κωδικοποίηση meta στοιχείοπου έχει συνταγογραφηθεί μεταξύ της ετικέτας ανοίγματος και κλεισίματος: < head> . . . < meta charset= "utf-8" > . . . < / head> Αυτή η καταχώρηση είναι αρκετά διαφορετική από τους υιοθετημένους στο πρότυπο της HTML 4.01, αλλά συμμορφώνεται πλήρως με το πρόσφατα εισάγεται αργά με το πρότυπο HTML 5 και θα γίνει απολύτως σωστά κατανοητό από οποιαδήποτε προγράμματα περιήγησης που χρησιμοποιούνται από την τρέχουσα χρήση. Θεωρητικά, το META στοιχείο με ένδειξη της κωδικοποίησης HTML του εγγράφου θα είναι καλύτερο να τεθεί Όσο το δυνατόν ψηλότερα στην κεφαλίδα αποβάθραςΈτσι, κατά τη διάρκεια της συνάντησης στο κείμενο του πρώτου σημείου δεν είναι από το βασικό ANSI (το οποίο πάντα διαβάζει πάντα και σε οποιαδήποτε παραλλαγή) το πρόγραμμα περιήγησης πρέπει να έχει ήδη πληροφορίες σχετικά με τον τρόπο ερμηνείας των κωδίκων αυτών των χαρακτήρων. Συνδέστε πρώτα

Koi8-r που κωδικοποιεί

ISO 8859-5 Κωδικοποίηση

ISO 8859-5

Εναλλακτική κωδικοποίηση

"Εναλλακτική κωδικοποίηση" - Με βάση τη σελίδα CP437, όπου όλα τα συγκεκριμένα ευρωπαϊκά σύμβολα στο δεύτερο ημίχρονο αντικαθίστανται από το Cyrillic, αφήνοντας άθικτα τους ψευδογραφικούς χαρακτήρες. Κατά συνέπεια, αυτό δεν θα χαλάσει τον τύπο των προγραμμάτων που χρησιμοποιούν τα παράθυρα κειμένου και παρέχει επίσης τη χρήση κυριλλικών χαρακτήρων σε αυτά.

Ιστορικά, υπήρχαν πολλές εναλλακτικές επιλογές κωδικοποίησης, αλλά όλες οι διαφορές αφορούν μόνο την περιοχή 0xF0 - 0xff (240-255). Το τελικό πρότυπο ήταν η κωδικοποίηση IBM CP866, η υποστήριξη του οποίου προστέθηκε στην έκδοση MS-DOS 6.22 (όλα τα είδη "αυτοκατασκευασμένων" ρωγμών χρησιμοποιήθηκαν. Η εναλλακτική κωδικοποίηση είναι ακόμα ζωντανή και εξαιρετικά δημοφιλής στο περιβάλλον DOS και OS / 2 . Επιπλέον, αυτή η κωδικοποίηση καταγράφεται ονόματα στο σύστημα αρχείων FAT. Το CP866 εξακολουθεί να χρησιμοποιείται στην κονσόλα Russifified Windows NT Family Systems.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.
8. Ένα 410. Β 411. Στο 412. G 413. D 414. E 415. 416. S 417. Και 418. 419. K 41a. L 41B. M 41c. H 41d. O 41e. P 41f.
9. P 420. Με 421. Τ 422. 423. F 424 X 425. C 426. Η 427. W 428. Shch 429. Kommersant 42α. 42β. B 42c. E 42d. Yu 42e. Είμαι 42F.
ΕΝΑ. Ένα 430. Β 431. στο 432. g 433. d 434. E 435. 2036. S 437. και 438. 439. Έως 43α. L 43b. m 43c. H 43D. Περίπου 43ε. p 43f.
ΣΙ. ░ 2591 ▒ 2592 ▓ 2593 │ 2502 ┤ 2524 ╡ 2561 ╢ 2562 ╖ 2556 ╕ 2555 ╣ 2563 ║ 2551 ╗ 2557 ╝ 255d. ╜ 255c. ╛ 255b. ┐ 2510
ΝΤΟ. └ 2514 ┴ 2534. ┬ 252c. ├ 251c. ─ 2500 ┼ 253c. ╞ 255e. ╟ 255f. ╚ 255α. ╔ 2554 ╩ 2569 ╦ 2566 ╠ 2560 ═ 2550 ╬ 256c. ╧ 2567
ΡΕ. ╨ 2568 ╤ 2564 ╥ 2565 ╙ 2559 ╘ 2558 ╒ 2552 ╓ 2553 ╫ 256b. ╪ 256α. ┘ 2518 ┌ 250c. █ 2588 ▄ 2584 ▌ 258γ. ▐ 2590 ▀ 2580
ΜΙ. R 440. από το 441. T 442. το 443. F 444. x 445. C 446. Η 447. sh 448. Shch 449. Kommersant 44α. s 44b. B 44c. E4d. Yu 44e. Είμαι 44F.
ΦΑ. E 301. ё 451. Є 404. є 454. Ї 407. ї 457. Ў 40e. ў 45e. ° B0. ∙ 2219 · B7. √ 221α. № 2116 ¤ A4. ■ 25a0. A0.

Έτσι 8859-5 - 8-bit που κωδικοποιεί από τη σειρά ISO-8859 για την καταγραφή του κυριλλικού. Στη Ρωσία δεν χρησιμοποιείται σχεδόν. Γενικά, το ISO 8859-5 δεν είναι πολύ βολική κωδικοποίηση, αφού δεν έχει πολλούς από τους απαραίτητους χαρακτήρες, όπως μια παύλα (-), πνιγμός (""), βαθμούς κλπ.



.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.
8. 80 81 82 83 84 85 86 87 88 89 8α. 8b. 8C. 8δ. 8e. 8f.
9. 90 91 92 93 94 95 96 97 98 99 9α. 9b. 9γ. 9D. 9e. 9f.
ΕΝΑ. A0. E 301. € 402. Ѓ 403. Є 404. 135. О] 406. Ї 407. Ј 408. Љ 409. Њ 40α Ћ 40b. Ќ 40γ. ΕΝΑ Δ Ў 40e. Џ 40f.
ΣΙ. Ένα 410. Β 411. Στο 412. G 413. D 414. E 415. 416. S 417. Και 418. 419. K 41a. L 41B. M 41c. H 41d. O 41e. P 41f.
ΝΤΟ. P 420. Με 421. Τ 422. 423. F 424 X 425. C 426. Η 427. W 428. Shch 429. Kommersant 42α. 42β. B 42c. E 42d. Yu 42e. Είμαι 42F.
ΡΕ. Ένα 430. Β 431. στο 432. g 433. d 434. E 435. 2036. S 437. και 438. 439. Έως 43α. L 43b. m 43c. H 43D. Περίπου 43ε. p 43f.
ΜΙ. R 440. από το 441. T 442. το 443. F 444. x 445. C 446. Η 447. sh 448. Shch 449. Kommersant 44α. s 44b. B 44c. E4d. Yu 44e. Είμαι 44F.
ΦΑ. № 2116 ё 451. 452. ѓ 453. є 454. 255. Us 456. ї 457. ј 458. љ 459. њ 45α. ћ 45b. ќ 45γ. § Α7. ў 45e. џ 45f.

KOI-8 (Κωδικός κοινής χρήσης πληροφοριών, 8 bits), Koi8 - ένα σύμβολο οκτώ bit που κωδικοποιεί πρότυπο στην επιστήμη των υπολογιστών. Σχεδιασμένο για κωδικοποίηση γραμμάτων κυριλλικών αλφαβήτων. Υπάρχει επίσης μια έκδοση επτά bit της κωδικοποίησης έκδοσης - Koi-7. Τα KOI-7 και τα ΚΟΙ-8 περιγράφονται στο GOST 19768-74 (τώρα άκυρο).

Οι προγραμματιστές KOI-8 έβαλαν τα σύμβολα του ρωσικού αλφαβήτου στην κορυφή του εκτεταμένου πίνακα ASCII κατά τέτοιο τρόπο ώστε οι θέσεις των κυριλλικών χαρακτήρων να αντιστοιχούν στα φωνητικά τους ανάλογα στο αγγλικό αλφάβητο στο κάτω μέρος του τραπεζιού. Αυτό σημαίνει ότι εάν στο κείμενο που γράφτηκε στο KOI-8, για να αφαιρέσετε το όγδοο κομμάτι κάθε σύμβολο, τότε αποδεικνύεται ένα "αναγνώσιμο" κείμενο, αν και γράφεται από τα λατινικά σύμβολα. Για παράδειγμα, οι λέξεις "ρωσικό κείμενο" θα μετατραπούν στο "Russkij Tekst". Ως παρενέργεια, τα σύμβολα του κυριλλικού αποδείχθηκαν ότι είναι διατεταγμένες με αλφαβητική σειρά.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.
8. ─ 2500 │ 2502 ┌ 250c. ┐ 2510 └ 2514 ┘ 2518 ├ 251c. ┤ 2524 ┬ 252c. ┴ 2534. ┼ 253c. ▀ 2580 ▄ 2584 █ 2588 ▌ 258γ. ▐ 2590
9. ░ 2591 ▒ 2592 ▓ 2593 ⌠ 2320 ■ 25a0. ∙ 2219 √ 221α. ≈ 2248 ≤ 2264 ≥ 2265 A0. ⌡ 2321 ° B0. ² b2. · B7. ÷ F7.
ΕΝΑ. ═ 2550 ║ 2551 ╒ 2552 ё 451. ╓ 2553 ╔ 2554 ╕ 2555 ╖ 2556 ╗ 2557 ╘ 2558 ╙ 2559 ╚ 255α. ╛ 255b. ╜ 255c. ╝ 255d. ╞ 255e.
ΣΙ. ╟ 255f. ╠ 2560 ╡ 2561 E 301. ╢ 2562 ╣ 2563 ╤ 2564 ╥ 2565 ╦ 2566 ╧ 2567 ╨ 2568 ╩ 2569 ╪ 256α. ╫ 256b. ╬ 256c. © A9.
ΝΤΟ. Yu 44e. Ένα 430. Β 431. C 446. d 434. E 435. F 444. g 433. x 445. και 438. 439. Έως 43α. L 43b. m 43c. H 43D. Περίπου 43ε.
ΡΕ. p 43f. Είμαι 44F. R 440. από το 441. T 442. το 443. 2036. στο 432. B 44c. s 44b. S 437. sh 448. E4d. Shch 449. Η 447. Kommersant 44α.
ΜΙ. Yu 42e. Ένα 410. Β 411. C 426. D 414. E 415. F 424 G 413. X 425. Και 418. 419. K 41a. L 41B. M 41c. H 41d. O 41e.
ΦΑ. P 41f. Είμαι 42F. P 420. Με 421. Τ 422. 423. 416. Στο 412. B 42c. 42β. S 417. W 428. E 42d. Shch 429. Η 427. Kommersant 42α.

Koi8-u κωδικοποίηση (ουκρανική)

Το KOI-8 έγινε η πρώτη ρωσική τυποποιημένη κωδικοποίηση στο Διαδίκτυο.

Το IETF ενέκρινε αρκετές RFC σύμφωνα με τις επιλογές κωδικοποίησης KOI-8:

  • RFC 1489 - Koi8-R (γράμματα του ρωσικού αλφαβήτου).
  • RFC 2319 - Koi8-U (τα γράμματα του ουκρανικού αλφαβήτου).
  • RFC 1345 - ISO-IR-111 (με σφάλμα στον προσδιορισμό της κύριας περιοχής).

Στους παραπάνω πίνακες, οι αριθμοί υποδηλώνονται από έναν δεκαεξαδικό κώδικα της επιστολής στο Unicode.

Koi8-r κωδικοποίηση (ρωσικά)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.

8.

2500

2502

250γ.

2510

2514

2518

251γ.

2524

252γ.

2534

253c.

2580

2584

2588

258γ.

2590

9.

2591

2592

2593

2320

25α0.

2219

221α.

2248

2264

2265

A0.

2321
°
B0.
²
Β2.
·
B7.
÷
F7.

ΕΝΑ.

2550

2551

2552
ΜΙ.
451

2553

2554

2555

2556

2557

2558

2559

255α.

255b

255c.

255D.

255ε.

ΣΙ.

255f.

2560

2561
ΜΙ.
401

2562

2563

2564

2565

2566

2567

2568

2569

256α.

256B.

256γ.
©
Α9.

ΝΤΟ.
yu
44E.
αλλά
430
ΣΙ.
431
ΝΤΟ.
446
ΡΕ.
434
ΜΙ.
435
ΦΑ.
444
ΣΟΛ.
433
Η.
445
και
438
Ι.
439
προς την
43α.
ΜΕΓΑΛΟ.
43B.
Μ.
43C.
Ν.
43d.
σχετικά με
43E.

ΡΕ.
Π
43f.
Εγώ
44f.
r
440
από
441
Τ.
442
w.
443
Ι.
436
σε
432
σι
44γ.
μικρό
44b.
z.
437
sH
448
ΜΙ.
44δ.
sH
449
ΝΤΟ.
447
Κουπαστική
44α.

ΜΙ.
Yu
42ε.
ΑΛΛΑ
410
ΣΙ.
411
ΝΤΟ.
426
ΡΕ.
414
ΜΙ.
415
ΦΑ.
424
ΣΟΛ.
413
Η.
425
ΚΑΙ
418
Ι.
419
ΠΡΟΣ ΤΗΝ
41α.
ΜΕΓΑΛΟ.
41B.
Μ.
41γ.
Ν.
41d.
ΣΧΕΤΙΚΑ ΜΕ
41E.

ΦΑ.
Π
41F.
Εγώ
42f.
R
420
ΑΠΟ
421
Τ.
422
W.
423
Ι.
416
ΣΕ
412
σι
42γ.
μικρό
42β.
Z.
417
SH
428
ΜΙ.
42d.
SH
429
ΝΤΟ.
427
Κουπαστική
42α.

Αλλες επιλογές

Μόνο δεν εμφανίζονται μόνο οι γραμμές πίνακες που ταιριάζουν, αφού οτιδήποτε άλλο συμπίπτει.

Koi8-u κωδικοποίηση (Ρωσικά-Ουκρανικά)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.

ΕΝΑ.

2550

2551

2552
ΜΙ.
451
є
454

2554
і
456
ї
457

2557

2558

2559

255α.

255b
ґ
491

255D.

255ε.

ΣΙ.

255f.

2560

2561
ΜΙ.
401
Є
404

2563
І
406
Ї
407

2566

2567

2568

2569

256α.
Ґ
490

256γ.
©
Α9.

Koi8-Ru που κωδικοποιεί (Ρωσική-Belorussko-Ukrainian)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.

ΕΝΑ.

2550

2551

2552
ΜΙ.
451
є
454

2554
і
456
ї
457

2557

2558

2559

255α.

255b
ґ
491
ў
45ε.

255ε.

ΣΙ.

255f.

2560

2561
ΜΙ.
401
Є
404

2563
І
406
Ї
407

2566

2567

2568

2569

256α.
Ґ
490
Ў
40e.
©
Α9.

Koi8-C κωδικοποίηση (Κεντρική Ασία)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.
8. ғ
493
җ
497
қ
49b.
ҝ
49D.
ң
4α3.
ү
4af.
ұ
4b1
ҳ
4b3.
ҷ
4b7.
ҹ
4b9.
һ
4BB.

2580
ә
4D9.
ӣ
4E3.
ө
4E9.
ӯ
4EF.
9. Ғ
492
Җ
496
Қ
49α.
Ҝ
49c.
Ң
4α2.
Ү
4ae.
Ұ
4b0.
Ҳ
4β2.
Ҷ
4b6.
Ҹ
4β8.
Һ
4BA.

2321
Ә
4D8.
Ӣ
4E2.
Ө
4E8.
Ӯ
4ee.
ΕΝΑ.
A0.
ђ
452
ѓ
453
ΜΙ.
451
є
454
ѕ
455
і
456
ї
457
ј
458
љ
459
њ
45α.
ћ
45b.
ќ
45γ.
ґ
491
ў
45E.
џ
45f.
ΣΙ.
2116
Ђ
402
Ѓ
403
ΜΙ.
401
Є
404
Ѕ
405
І
406
Ї
407
Ј
408
Љ
409
Њ
40α.
Ћ
40b.
Ќ
40γ.
Ґ
490
Ў
40e.
Џ
40F.

Koi8-t κωδικοποίηση (tajik)

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.
8. қ
49b.
ғ
493

201a.
Ғ
492

201E.

2026

2020

2021

2030
ҳ
4b3.

2039
Ҳ
4β2.
ҷ
4b7.
Ҷ
4b6.
9. Қ
49α.

2018

2019

201C.

201D.

2022

2013
-
2014

2122

203α.
ΕΝΑ. ӯ
4EF.
Ӯ
4ee.
ΜΙ.
451
¤
Α4.
ӣ
4E3.
¦
Α6.
§
Α7.
«
Ab
¬
ΜΕΤΑ ΧΡΙΣΤΟΝ
­
ΕΝΑ Δ
®
Α
ΣΙ. °
B0.
±
Β1.
²
Β2.
ΜΙ.
401
Ӣ
4E2.

B6.
·
B7.

2116
»
ΒΒ.
©
Α9.

Koi8-o, κωδικοποίηση koi8-s (σλαβική, παλιά ορθογραφία)

0407
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.

8.
Ђ
0402
Ѓ
0403
¸
00b8.
ѓ
0453

201e.

2026

2020
§
00a7.

20ac.
¨
00a8.
Љ
0409

2039
Њ
040α.
Ќ
040c.
Ћ
040b.
Џ
040f.

9.
ђ
0452

2018

2019

201C.

201D.

2022

2013

2014
£
00a3.
·
00b7.
љ
0459

203α.
њ
045α.
ќ
045c.
ћ
045b.
џ
045f

ΕΝΑ.

00a0.
ѵ
0475
ѣ
0463
ΜΙ.
0451
є
0454
ѕ
0455
і
0456
ї
0457
ј
0458
®
00ae.

2122
«
00AB
ѳ
0473
ґ
0491
ў
045E.
´
00b4.

ΣΙ.
°
00b0.
Ѵ
0474
Ѣ
0462
ΜΙ.
0401
Є
0404
Ѕ
0405
І
0406
Ї
0407
Ј
0408

2116
¢
00a2
»
00BB.
Ѳ
0472
Ґ
0490
Ў
040E.
©
00a9.

ISO-IR-111, KOI8-E που κωδικοποιεί

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.

ΕΝΑ.

00a0.
ђ
0452
ѓ
0453
ΜΙ.
0451
є
0454
ѕ
0455
і
0456
ї
0457
ј
0458
љ
0459
њ
045α.
ћ
045b.
ќ
045c.
­
00AD.
ў
045E.
џ
045f

ΣΙ.

2116
Ђ
0402
Ѓ
0403
ΜΙ.
0401
Є
0404
Ѕ
0405
І
0406
Ї
0407
Ј
0408
Љ
0409
Њ
040α.
Ћ
040b.
Ќ
040c.
¤
00a4.
Ў
040E.
Џ
040f.

Koi8-ενοποιημένη κωδικοποίηση, koi8-f

Η κωδικοποίηση Koi8-ενοποιημένη (KOI8-F) προτείνεται από το λογισμικό Fingertip.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A.A. .ΣΙ .C.c.c. .ΡΕ. .E.e. .ΦΑ.

8.

2500

2502

250γ.

2510

2514

2518

251γ.

2524

252γ.

2534

253c.

2580

2584

2588

258γ.

2590

9.

2591

2018

2019

201C.

201D.

2022

2013

2014
©
00a9.

2122

00a0.
»
00BB.
®
00ae.
«
00AB
·
00b7.
¤
00a4.

ΕΝΑ.

00a0.
ђ
0452
ѓ
0453
ΜΙ.
0451
є
0454
ѕ
0455
і
0456
ї
0457
ј
0458
љ
0459
њ
045α.
ћ
045b.
ќ
045c.
ґ
0491
ў
045E.
џ
045f

ΣΙ.

2116
Ђ
0402
Ѓ
0403
ΜΙ.
0401
Є
0404
Ѕ
0405
І
0406
Ї
0407
Ј
0408
Љ
0409
Њ
040α.
Ћ
040b.
Ќ
040c.
Ґ
0490
Ў
040E.
Џ
040f.

Επιλογές μη καπνιστών KOI-8

Σε ορισμένες χώρες, οι CMEAS δημιουργήθηκαν από τις τροποποιήσεις KOI-8 για τις εθνικές λοσιτικές επιλογές. Η βασική ιδέα ήταν η ίδια - με την "κοπή" του όγδοου bit, το κείμενο θα πρέπει να παραμείνει περισσότερο ή λιγότερο κατανοητό.

- Λοιπόν, ξεκινήστε! - είπε ο Doolokh.
"Λοιπόν, δήλωσε ο Pierre, χαμογελώντας ακόμα. - Φοβήθηκα. Ήταν προφανές ότι η υπόθεση, η οποία άρχισε τόσο εύκολα, δεν μπορούσε πλέον να εμποδιστεί ότι συνέβαινε, ήδη ανεξάρτητα από τη βούληση των ανθρώπων και έπρεπε να γίνει. Ο Denisov προχώρησε για πρώτη φορά στο εμπόδιο και διακήρυξε:
- Δεδομένου ότι το p "Svatstniki αρνήθηκε να" αυτούς ", αν δεν είναι δυνατόν να ξεκινήσετε: Πάρτε όπλα και σύμφωνα με τη λέξη t" και να αρχίσετε να συγκλίνουν.
"G ..." AZ! TWO! T "και! ..." Ο Denisov φώναξε θυμωμένα και μετακόμισε στο πλάι. Και οι δύο πήγαν στα τρεκά μονοπάτια πιο κοντά και πιο κοντά, στην ομίχλη που αναγνωρίζει ο ένας τον άλλον. Οι αντίπαλοι είχαν το δικαίωμα, βγαίνοντας στο εμπόδιο, πυροβολούν όταν κάποιος θέλει. Ο Shelokh ήταν αργός, χωρίς να σηκώσει το όπλο, να κοιτάζει με τα φωτεινά, λαμπερά, μπλε μάτια του στο πρόσωπο του αντιπάλου της. Το στόμα του, όπως πάντα, είχε ένα χαμόγελο σαν.
- Έτσι, όταν θέλω - μπορώ να πυροβολήσω! - Ο δήλωσε ο Pierre, με τη λέξη Τρία ταχεία βήματα προχώρησε, αντιπαράθεση από το Trotan Walkway και το περπάτημα σε ολόκληρο το χιόνι. Ο Pierre κρατούσε ένα όπλο, που εκτείνεται προς τα εμπρός το δεξί του χέρι, φαινόταν να φοβάται το πιστόλι να μην σκοτώσει τον εαυτό του. Έλαβε επιμελώς το αριστερό του χέρι, επειδή ήθελε να το υποστηρίξει το δεξί της χέρι και ήξερε ότι ήταν αδύνατο. Περνώντας τα βήματα έξι και ξεκινήστε από το κομμάτι στο χιόνι, ο Pierre κοίταξε τα πόδια του, και πάλι κοίταξε το Dolokhov και τραβώντας το δάχτυλό του, καθώς διδάσκεται, πυροβόλησε. Δεν περιμένω έναν τόσο ισχυρό ήχο, ο Pierre που φλερτάρει από το πλάνο του, στη συνέχεια χαμογέλασε τον εαυτό του την εντύπωση και σταμάτησε. Ο καπνός, ειδικά παχύ από την ομίχλη, τον εμπόδισε να τον δει την πρώτη στιγμή. Αλλά ένας άλλος πυροβολισμός που περίμενε, δεν ακολούθησε. Μόνο τα βιαστικά βήματα του Dolohov ακούστηκαν και η φιγούρα του φαινόταν εξαιτίας του καπνού. Με το ένα χέρι κρατούσε πίσω από την αριστερή πλευρά, το άλλο συμπιεσμένο ένα παραλειφθεί πιστόλι. Το πρόσωπό του ήταν χλωμό. Ο Ροστόφ έτρεξε και κάτι του είπε.
"Δεν είναι ... E ... T", "Ο Solokov είπε μέσα από τα δόντια του," όχι, όχι πάνω ", και κάνει λίγο περισσότερη πτώση, κάνοντας τα βήματα για τον σαμπεριά, έπεσε στο χιόνι δίπλα της. Το αριστερό του χέρι ήταν στο αίμα, την ξεπέρασε για το Sutuk και την έσκυψε. Το πρόσωπό του ήταν χλωμό, συνοφρύωμα και τρόμος.
"Θα γράψω ..." άρχισε να μοιράζεται, αλλά δεν μπορούσε να πει αμέσως ... "Παρακαλώ, συμφώνησε με την προσπάθεια". Pierre, μόλις κρατώντας sobs, έτρεξε στο Dolohov και ήθελε να περάσει από το χώρο που χωρίζει τα εμπόδια, όπως ο Shahov φώναξε: - στο φράγμα! - και ο Pierre, ο οποίος συνειδητοποίησε τι ήταν το θέμα, σταμάτησε στο σπαθί του. Μόνο 10 βήματα τα μοιράστηκαν. Ο Shelokhov έπεσε το κεφάλι του στο χιόνι, άπληστοι δαγκωμένο το χιόνι, έβαλε και πάλι το κεφάλι του, ανακτήθηκε, πήρε τα πόδια του και κάθισε, ψάχνει για ένα στερεό κέντρο βάρους. Καταπείθηκε κρύο χιόνι και τον πιπιλίζει. Τα χείλη του τρέμουν, αλλά όλα χαμογελούν. Τα μάτια λάμπουν με προσπάθεια και τη μήτρα των τελευταίων δυνάμεων που συλλέχθηκαν. Αυξήθηκε το όπλο και άρχισε να στοχεύει.
"Πλευρική, κλείστε το όπλο", δήλωσε ο Nesvitsky.
- 3ak "Εγώ! - χωρίς αντέχει, ακόμη και ο Denisov φώναξε στον αντίπαλό του.
Pierre με το χοιρινό χαμόγελο της λύπης και της μετάνοιας, αβοήθητα βάζοντας τα πόδια και τα χέρια του, ευθεία με τα μεγάλα στήθη της στάθηκε πριν από τον Dolokhov και δυστυχώς τον κοίταξε. Ο Denisov, ο Ροστόφ και ο Nesvitsky ανέβηκαν. Ταυτόχρονα, άκουσαν τη βολή και την κακή κραυγή του DOLOGOV.
- με! - Φώναξε από τον Shahov και έβαλε ανίσχυρα το πρόσωπο του χιονιού. Ο Pierre άρπαξε το κεφάλι του και, γυρίζοντας πίσω, πήγε στο δάσος, περπατώντας εξ ολοκλήρου στο χιόνι και δυνατά καταδικάστηκε άγνωστες λέξεις:
- ηλίθιο ... ηλίθιο! Θάνατος ... False ... - είπε να πυροβολήσει. Ο Nesvitsky τον σταμάτησε και πήρε το σπίτι του.
Ο Ροστόφ με τον Denisov ήταν τυχερός από τον τραυματισμένο Dolokhov.
Shelokhov, σιωπηλά, με κλειστά μάτια, βρισκόταν στο έλκηθρο και δεν απάντησε στις ερωτήσεις που έκανε. Αλλά, έχοντας εισέλθει στη Μόσχα, ξυπνά ξαφνικά και, με δυσκολία να ανυψώσει το κεφάλι του, πήρε τον Ρόστοφ ο οποίος καθόταν με το χέρι του. Ο Ροστόφ χτύπησε εντελώς αλλαγή και απροσδόκητα ενθουσιώδεις έκφραση του προσώπου του DOLOGOV.
- Καλά? Πως αισθάνεσαι? - ρώτησε ο Ρόστοφ.
- Σκιά! Αλλά όχι το σημείο. Ο φίλος μου ", δήλωσε η φωνή Shard με τη διακοπτόμενη φωνή, - πού είμαστε; Είμαστε στη Μόσχα, ξέρω. Δεν είμαι τίποτα, αλλά την σκότωσα, σκοτώθηκε ... δεν θα το πάρει. Δεν θα συμβεί ...
- Οι οποίοι? - ρώτησε ο Ρόστοφ.
- Η μητέρα μου. Η μητέρα μου, ο άγγελος μου, ο αξιολάτρευτος άγγελος, η μητέρα, - και ο Solohov, φώναξα, συμπιέζοντας το χέρι του Ροστόφ. Όταν ηρεμήσει κάπως, εξήγησε ο Ρόστοφ, ο οποίος ζει με τη μητέρα του, ότι αν η μητέρα τον βλέπει πεθαίνει, δεν θα το πάρει. Ζήτησε τον Ρόστοφ να την πάει και να την προετοιμάσει.
Ο Ροστόφ προχώρησε για να εκπληρώσει την τάξη και έμαθε να εκπλήξει μεγάλη έκπληξη ότι είχε μάθει ότι, αυτό το buyan, το Brener του Solohov ζούσε στη Μόσχα με την ηλικιωμένη γυναίκα και μια αδελφή και ο αδελφός ήταν ο πιο απαλός γιος και αδελφός.

Pierre πρόσφατα έδειξε σπάνια τη σύζυγό του με ένα μάτι στο μάτι. Και στην Αγία Πετρούπολη, και στη Μόσχα, το σπίτι τους ήταν συνεχώς γεμάτο από τους επισκέπτες. Την επόμενη νύχτα μετά από μια μονομαχία, όπως έκανε συχνά, δεν πήγαινε στο υπνοδωμάτιο, αλλά παρέμεινε στο τεράστιο, πατρικό του γραφείο, στο ίδιο το ένα στο οποίο πέθανε η μέτρηση του ζητιάνος.
Αντιμετώπισε τον καναπέ και ήθελε να κοιμηθεί, για να ξεχάσει όλα όσα ήταν μαζί του, αλλά δεν μπορούσε να το κάνει αυτό. Μια τέτοια καταιγίδα συναισθημάτων, σκέψεις, οι αναμνήσεις ξαφνικά αυξήθηκαν στην ψυχή του ότι όχι μόνο δεν μπορούσε να κοιμηθεί, αλλά δεν μπορούσε να καθίσει στο σημείο και έπρεπε να πηδήσει από τον καναπέ και να περπατήσει γύρω από το δωμάτιο με ταχεία βήματα. Τον παρουσιάστηκε στην αρχή μετά το γάμο, με ανοιχτούς ώμους και κουρασμένος, παθιασμένη εμφάνιση, και αμέσως δίπλα της φαινόταν όμορφη, ξυλεία και σθεναρά το πρόσωπο του Dolokhov, πώς ήταν στο δείπνο, και το ίδιο πρόσωπο dogov, χλωμό, τρέμοντας Και πάσχει πώς ήταν όταν γύρισε και έπεσε στο χιόνι.
"Τι ήταν εκεί; - ρώτησε τον εαυτό του. - Σκότωσα τον εραστή, ναι, σκότωσε τον εραστή της συζύγου του. Ναι, ήταν. Από τι? Πώς έλαβα σε αυτό; - Γιατί την παντρευτήκατε, - απάντησε στην εσωτερική φωνή.
"Αλλά τι είμαι ένοχος; Ρώτησε. - Στο γεγονός ότι παντρεύτηκε να την αγαπάτε, στο γεγονός ότι εξαπατήσατε τον εαυτό σας και της, - και έφερε μαζί εκείνη τη στιγμή μετά το δείπνο στο Prince Vasilla, όταν είπε αυτές τις λέξεις που δεν μπορούσαν να ονομαστούν: "JE Vous AIME ". [Σ 'αγαπώ.] Όλα από αυτό! Τότε αισθάνθηκα, σκέφτηκα, ένιωσα τότε ότι δεν ήταν αυτό που δεν είχα κανένα δικαίωμα σε αυτό. Έτσι βγήκε. " Θυμήθηκε το μήνα του μέλιτος και κοκκινίζει με τις αναμνήσεις. Ιδιαίτερα ζωντανές, οι αναμνήσεις του πώς μια μέρα, λίγο μετά το γάμο του, ήταν 12 μέτρα από την ημέρα, σε ένα μεταξωτό παλτό ήρθε από το υπνοδωμάτιο στο γραφείο και βρήκε το κεφάλι του επικεφαλής του διευθυντή, που αναρωτιόταν προσεκτικά, Κοίταξε το πρόσωπο του Pierre, στο μπουρνούζι του και χαμογέλασε ελαφρώς, σαν να εκφράζει αυτό το χαμόγελο σεβασμό συμπάθειας της ευτυχίας της αρχής του.
"Και πόσες φορές ήμουν περήφανος γι 'αυτό, ήμουν περήφανος για τη μεγάλη ομορφιά της, η κοσμική της τακτική, σκέφτηκε. Ήταν περήφανος για το σπίτι στο οποίο πήρε ολόκληρη την Πετρούπολη, περήφανη για την ανεπάρκεια και την ομορφιά του. Έτσι τι είμαι υπερήφανος;! Τότε σκέφτηκα ότι δεν την κατάλαβα. Όπως συχνά, σκέφτομαι τον χαρακτήρα της, είπα τον εαυτό μου ότι έπρεπε να κατηγορήσω ότι δεν την καταλαβαίνω, δεν καταλαβαίνω αυτό το συνεχώς, ικανοποίηση και απουσία οποιουδήποτε εθισμού και επιθυμιών, και ολόκληρη η επίδραση ήταν σε αυτή την τρομερή λέξη ότι είναι μια καταστρεπτική γυναίκα: είπε ο εαυτός μου είναι μια τρομερή λέξη, και όλα έγιναν σαφείς!
"Η Ανατολική ταξίδεψε σε αυτήν για να πάρει χρήματα από αυτήν και την φίλησε στους γυμνούς ώμους της. Δεν του έδωσε χρήματα, αλλά επέτρεψε να φιλήσει τον εαυτό του. Ο πατέρας, αστεία, ενθουσιασμένος τη ζήλια της. Αυτή, με ένα χαλαρό χαμόγελο, είπε ότι δεν ήταν τόσο ηλίθιο να ζηλεύω: ας το κάνει αυτό που ήθελε, είπε για μένα. Την ρώτησα μία φορά, αν αισθάνεται σημάδια εγκυμοσύνης. Γέλασε περιφρονητικά και είπε ότι δεν ήταν ένας ανόητος που επιθυμούσε να έχει παιδιά, και ότι δεν θα είχε παιδιά από μένα. "
Στη συνέχεια θυμήθηκε την αγένεια, η σαφήνεια των σκέψεών της και η χυδαιότητα των εκφράσεων που είναι εγγενής σε αυτήν παρά την ανατροφή της στον υψηλότερο αριστοκρατικό κύκλο. "Δεν είμαι κάπως ένας ανόητος ... Θα δοκιμάσω τον εαυτό μου ... Allez vous Promener," [βγείτε έξω,] είπε. Συχνά, κοιτάζοντας την επιτυχία της στα μάτια των ηλικιωμένων και των νέων ανδρών και των γυναικών, ο Pierre δεν μπορούσε να καταλάβει γιατί δεν την αγαπούσε. Ναι, ποτέ δεν την αγάπησα, είπα στον εαυτό μου Pierre. Ήξερα ότι ήταν μια καταστρεπτική γυναίκα, επανέλαβε τον εαυτό του, αλλά δεν τον κόπο να το παραδεχτεί.