Форматы электронных документов, используемые в управлении документацией

В современном мире информация является ценнейшим ресурсом, сопоставимым разве что со временем. Информация выполняет множество задач в жизни общества, обеспечивая коммуникационное взаимодействие всех его составляющих, фиксируя, сохраняя и передавая полученные и накопленные знания. И все же ключевую роль информация играет именно в управлении.

Управленческая информация фиксируется в документах. Документ, как носитель информации, является информационным ресурсом, управление которым возложено на специалистов-документоведов, призванных организовать технологический процесс документирования и работу с документами, в том числе и с использованием современных информационных технологий.

На современном этапе уже ни у кого не вызывает сомнений необходимость внедрения новых информационных технологий в процессы управления и прежде всего в сферу документационного обеспечения управления (ДОУ), как в одну из важнейших составляющих этих процессов. Говоря о внедрении новых информационно-коммуникационных технологий (ИКТ) в сферу ДОУ, как правило, подразумевается проектирование и внедрение автоматизированной системы документационного обеспечения управления (АС ДОУ) с множеством вариантов встроенных и прилагаемых модулей.

Но что стоит за этими информационными технологиями, в том числе системами АС ДОУ? Мало кто из специалистов-документоведов понимает это в полном объеме. В то же время, совершенно очевидно, что без базовых, основополагающих знаний в сфере информационных технологий (ИТ) ни один документовед уже обойтись не может.

В последнем национальном стандарте, регулирующем процессы управления документами ГОСТ Р ИСО 15489-1-2007 четко прописана ответственность «управляющих документацией», т. е. специалистов в области документационного обеспечения управления, за проектирование, внедрение и использование автоматизированной системы ДОУ . Это говорит о том, что документоведы уже не могут быть сторонними наблюдателями при проектировании и внедрении АС ДОУ и только потом ее пользователями. Они должны уже на начальном этапе ее проектирования принимать активное участие в процессе и устанавливать основные требования к функциональной составляющей этой системы.

В соответствии с требованиями к квалификации, документовед принимает участие в постановке задач, проектировании, эксплуатации и совершенствовании (в части информационного обеспечения) автоматизированных информационных систем и систем управления. Также принимает участие в разработке новейших информационных технологий, проектировании и актуализации баз и банков данных. Изучает и обобщает передовой отечественный и зарубежный опыт в области ДОУ.

Изучение компьютерных информационных технологий в управленческой деятельности становится важной задачей общепрофессиональной подготовки по специальности «Документоведение и документационное обеспечение управления» . Современный специалист должен хорошо ориентироваться в многообразии программных средств и представлять себе уровень вариантности программно-технологических решений для реализации задач ДОУ.

Отсюда можно сделать вывод о необходимости расширения кругозора документоведов в сфере применения информационных технологий в ДОУ и их особенностей.

Важнейшей проблемой, возникающей при внедрении ИТ в деятельности любой, особенно государственной, организации является проблема сохранности электронных документов и доступ к ней по истечении значительного периода времени. Еще одна из проблем возникает при обмене электронными документами в управлении, особенно на межведомственном уровне. На современном этапе эти проблемы, отчасти, помогут решить открытые форматы электронных документов.

В стране активно обсуждается и разрабатывается вопрос внедрения электронного документооборота на уровне правительства (например, программы «Электронная Россия» , «Электронная Москва» , концепции формирования электронного правительства , внедрения электронных администра-тивных регламентов , объединения го-сударственных информационных ре-сурсов ). Решение вопросов, поставленных в этих документах не возможно без учета форматов электронных документов (ЭД).

Важными документами, задающими основные направления развития информационных технологий в Российской Федерации, являются Доктрина информационной безопасности и Стратегия развития информационного общества . Особое внимание уделено Программам и Концепциям, ввиду того, что именно в них заложена методология внедрения современных ИТ в России, в том числе в сферу ДОУ. Среди них особый интерес представляют Федеральная целевая программа «Электронная Россия (2002−2010 гг.)» , Концепция формирования в Российской Федерации электронного правительства до 2010 г. , Концепция использования информационных технологий в деятельности федеральных органов государственной власти до 2010 г. и др.

Концепция развития национальной системы стандартизации представляет собой систему взглядов на проблемы развития национальной системы стандартизации в Российской Федерации до 2010 г. и содержит обоснованные цели, задачи и направления развития.

Рассмотрению этого вопроса мы намерены посвятить цикл статей, в которых будут описаны основные форматы электронных документов, становление и развитие свободного программного обеспечения, специфика открытых форматов электронных документов, практика применения их в России и за рубежом.

Формат электронного документа – это, более точно, формат файла, в котором содержится текстовая и/или аудиовизуальная информация в закодированном виде. «Закодированный» не следует путать с понятием «зашифрованный». Шифрование относится к средствам скрытия информации, а кодирование – лишь преобразование информации из одной формы в другую.

Если проанализировать современные словари компьютерных технологий, то понятие «формат» многообразно и сложно. Для пользователя достаточно знать, что формат электронного документа – это некая определенная логика или алгоритм, следуя которым информация из машиночитаемой преобразуется в понятную для человека и наоборот. Форматы могут иметь разные виды, от простых и ограниченных по возможностям до сложных и способных нести множество функций, включая возможности создания верстки, сжатия и шифрования.

В области компьютерных технологий под термином «формат» понимается структура информационного объекта. Например, форматом файла называют способ организации элементов информации (битов, байтов) в файле, а формат электронного документа определяет способ расположения и представления данных в электронном документе .

Перечислим кратко форматы электронных документов, используемые в ДОУ .

Текстовые форматы используются для создания текстов документов и чаще всего создаются при помощи текстовых процессоров.
Например:

DOC – популярный формат электронного документа, предназначен для просмотра и изменения (редактирования) текста документа. Формат крайне удобен при одновременной работе над документом нескольких исполнителей.
.PDF – формат отображения документа в идентичном виде на любой операционной системе и в любом приложении. Популярен при составлении документов, презентационных материалов, рекламных буклетов и т. п. Ввиду того, что формат предназначен для просмотра документа и не позволяет вносить в него несанкционированно (либо незаметно) изменения, его использование в ДОУ крайне удобно. Следует отметить, что все стандарты международной организации по стандартизации (ИСО) присылаются в Ростехрегулирование именно в формате PDF.

RTF – предназначен для просмотра документов и их редактирования в различных версиях программных продуктов. Например, версиях Word for Windows. В ДОУ формат активно используется благодаря тому, что позволяет преобразовывать файлы без потери структуры и содержательной части документа и работать с ними в одной операционной системе, но в различных ее временных версиях.
Графические форматы хранят изображение (например, фотографию, рисунок) и делятся на два основных типа: векторные форматы, которые хранят изображение как набор геометрических фигур (DXF, EPS, CGM), и растровые форматы, которые хранят изображение как набор точек-пикселей (BMP, TIFF, GIF). Сохраненное изображение можно добавить к тексту документа и использовать его при оформлении презентации.

Форматы баз данных создаются при помощи систем управления базами данных (СУБД). Они состоят из полей и таблиц, содержащих отдельные элементы информации. Про-грамма позволяет устанавливать связи между разрозненными элементами. Например, база данных о сотрудниках может содержать поля с фамилиями сотрудников, адресами и сведениями о выполняемой работе.

Файлы в формате электронных таблиц хранят в ячейках числа и взаимосвязи между этими числами. Так, одна ячейка может содержать формулу, которая суммирует данные двух других ячеек. Как и файлы баз данных, файлы электронных таблиц обычно имеют формат той программы, при помощи которой созданы. Этот формат удобен при учете рабочего времени и т. п.

Видео- и аудиоформаты содержат движущиеся изображения (цифровое видео, анимацию) и звуковые данные, которые чаше всего создаются и просматриваются при помощи соответствующих программ и хранятся в однопрограммном формате. Наиболее используемыми из них являются форматы QuickTime и MPEG. В ДОУ с их помощью можно протоколировать заседания, совещания и т.д.

Более подробно остановимся на форматах разметки, которые содержат встроенные инструкции по отображению и понятности содержания файла.

Определять язык разметки текстов электронных документов можно на метаязыке SGML (Standard Generalized Markup Language). Изначально он был разработан для совместного использования машиночитаемых документов в больших правительственных и аэрокосмических проектах. Он широко использовался в печатной и издательской сфере, но его сложность затруднила его широкое распространения для повседневного использования.

SGML был утвержден Международной организацией по стандартизации ISO в качестве международного стандарта ISO 8879:1986 «Information processing – Text and office systems – Standard Generalized Markup Language (SGML)» и используется в государственных органах многих стран мира.

От языка разметки текстов документов SGML произошли новые, более совершенные языки разметки HTML и XML .

HTML (Hypertext Markup Language – «язык разметки гипертекста ») – это приложение SGML. Он используется для отображения почти всей информации в сети. Соответствует международному стандарту ISO 8879:1986 и является стандартным языком разметки документов во Всемирной паутине (www).

XML (Extensible Markup Language) – подмножество языка SGML. Получил популярность при управлении информацией и обмене ею, как относительно простой язык разметки текстов документов. XML – текстовый формат, предназначенный для хранения структурированных данных (взамен существующих файлов баз данных ), для обмена информацией между программами , а также для создания на его основе более специализированных языков разметки, иногда называемых словарями.

Формат XML принят органами стандартизации интернет-сообщества в лице консорциума World Wide Web (W3C), который разрабатывает и внедряет технологические стандарты для Всемирной паутины и организации UDDI (Universal Description, Discovery and Integration), развивающей стандарт Универсального описания, обнаружения и интеграции, предназначенного для определения, регистрации и обнаружения Web-служб, предлагаемых компаниями. Это спецификация, устанавливающаяся требования к распределенному информационному регистру Web-службы .

По назначению форматы электронных документов можно условно разделить на:
– форматы для просмотра документа;
– форматы для просмотра и изменения документа;
– форматы для изменения документа.

По возможности переноса форматы электронных документов бывают:
– переносимые межплатформенно;
– переносимые межпрограммно;
– специализированные.

Как правило, четкой границы между этими категориями не бывает. Форматы, переносимые между различными платформами, могут быть и переносимыми межпрограммно. Специализированные форматы применяются в узких задачах и используются, как правило, только приложениями одной фирмы и чаще всего являются закрытыми.

По доступности форматы могут быть открытыми и закрытыми. Закрытые форматы всегда являются собственностью конкретной организации, которая использует их как для того чтобы гарантировать потребителю качество продукта, так и для защиты от заимствования технологии конкурентами.

Открытый формат – общедоступная спецификация хранения цифровых данных, свободная от лицензионных ограничений при использовании. В частности, должна быть возможность включать поддержку открытых форматов как в свободное (открытое ), так и в проприетарное (собственническое, несвободное) ПО , распространяемое по лицензиям , характерным для каждого из этих типов. Главная цель открытых форматов – гарантировать возможность доступа к данным в течение долгого времени без оглядки на лицензионные права и технические спецификации. Открытый формат электронного документа защищает потребителя не только при смене версий программы, но и дает возможность читать документы в условиях недоступности программы, при помощи которой был создан электронный документ.

Чем примечателен формат XML? Расширяемый язык разметки Extensible Markup Language содержит в себе не только данные, но и «несет информа-цию, описывающую эти данные. Он применим к любому компьютерному приложению и позволяет передавать большие объемы информации без необходимости трудоемкого преобразования структур данных» .

В настоящее время производители программного обеспечения оперативно переключились на использование XML в своей продукции и, таким образом, реализуют идею стандартизации форматов документов на основе XML, по сути открытого формата электронных документов.

Продолжение в следующем номере.

ГОСТ Р ИСО 15489-1-2007. Управление документами. Общие требования.

Электронные документы стали такой же важной частью архивов, как и принтер на столе секретаря. Тексты, фотографии, чертежи, базы данных, аудио- и видеофайлы стремительно уходят в «цифру», вызывая к жизни дискуссии о том, какие форматы наиболее пригодны для постоянного хранения электронных документов. К счастью, российским архивистам есть к кому обратиться за помощью.

Об электронных документах говорят все чаще и громче. В США архивисты посвятили этому направлению работы полноценный профессиональный праздник - День электронного документа (Electronic Records Day), который отмечается 10 октября. В этот день ученые и практики собираются вместе для обсуждения актуальных вопросов сохранности электронных документов.

Российское научное сообщество также не остается в стороне от решения практических задач, пусть и не приуроченных к красным дням календаря. В прошлом году ученые из Российского государственного гуманитарного университета (РГГУ) провели масштабное исследование разных форматов файлов электронных документов с детальным описанием нюансов каждого из них.

Выводы, основные тенденции представлены в научном докладе РГГУ «Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения».1 Это одна из первых подобного рода научно-исследовательских работ в России, позволяющая архивистам федеральных органов исполнительной власти, государственных и негосударственных организаций, а также государственных и муниципальных архивов объективно подойти к вопросу выбора наиболее оптимального формата постоянного (долговременного) хранения электронных документов.

Некоторые требования к хранению электронных документов

Уже на этапе проектирования СЭД система выстраивается таким образом, чтобы в течение всего срока хранения обеспечивать аутентичность, надежность и пригодность документа независимо от изменений в системе2 . Такие изменения в числе прочих могут быть вызваны конвертированием форматов, миграцией3 между техническим оборудованием, операционными системами или программными приложениями. При этом следует отметить, что при конверсии форматов сведения о совершенном конвертировании должны быть сохранены в составе контрольной информации4 . Важно также знать, что, помимо оригинала электронного документа, на протяжении всего срока хранения необходимо сохранять документ метаданных (описание документа)5 , который содержит все метаданные об электронном документе. Если срок хранения электронного документа превышает ожидаемый срок существования систем хранения данных, необходимо задокументировать планы миграции в новые системы6 .

Читабельность – неотъемлемая характеристика электронного документа. Она обеспечивается соответствием технических характеристик документа и программного обеспечения, доступного работникам архива. Формат файла, определенный для постоянного (долговременного) хранения, должен соответствовать техническим возможностям органов государственного власти, государственных и муниципальных архивов, негосударственных организаций и др. по воспроизведению информации в долговременной перспективе7 . Более того, законодательно закреплено, что электронные документы принимаются на хранение в сопровождении программных средств, позволяющих их воспроизвести, и комплекта сопроводительной документации8 .

В отношении форматов файлов, отображение которых должно поддерживаться системами электронного документооборота, нет точного единообразия. Имеющиеся на сегодняшний день нормативно-правовые акты несколько разнятся в своем видении финального списка. Например, согласно Рекомендациям по подготовке федеральными органами власти перечней документов, создание, хранение и использование которых должно осуществляться в форме электронных документов при организации внутренней деятельности (утв. приказом Росархива от 29.04.2011 года № 32), присутствие в СЭД ФОИВ электронных документов рекомендательно осуществляется в форматах PDF, DOC, RTF, TXT, XML.

В соответствии с Требованиями к информационным системам электронного документооборота федеральных органов исполнительной власти, учитывающих в том числе необходимость обработки посредством данных систем служебной информации ограниченного распространения (утв. Приказом Минкомсвязи РФ от 02.09.2011 года № 221), обязательными являются следующие четыре формата: PDF, RTF, DOC, TIFF. Другие нормативные документы допускают возможность присутствия в электронных системах органов государственной власти иных форматов файлов электронных документов.

В сентябре 2014 года экспертный совет при Минкомсвязи использовать PDF/A в качестве формата межведомственного взаимодействия в СЭД и долговременного хранения электронных документов. Наряду с PDF/A предлагается передавать XML-файл с реквизитами электронного документа. Известно, что совместно с ФСО будет подготовлен соответствующий приказ с требованиями к документообороту.

Рекомендации по выбору хранения формата электронных документов

Выбор оптимального формата хранения определяется видом информации, характеристиками технических средств хранения (магнитных, оптических, твердотельных носителей электронных данных), особенностями доступа пользователей к данным и программным средствам. В связи с удешевлением носителей информации и повышением их емкости, доступность ПО и считываемость формата файла в долговременной перспективе признаются главными факторами при выборе способа кодирования. В сравнительном анализе форматов электронных документов (текстовых, графических, аудио- и видеофайлов, баз данных, презентаций), проведенном сотрудниками РГГГУ, учитывались следующие критерии:

  • разработчик и права собственности;
  • год разработки формата файлов;
  • год его последней модернизации;
  • частота обновлений программного кода;
  • наличие версий;
  • открытый или закрытый программный код;
  • описание и сравнение математических алгоритмов сжатия;
  • предназначение формата файлов;
  • наличие и доступность конвертеров;
  • устойчивость при множественных репликациях 9 .

Текстовые форматы

Текст – основной массив хранимой в архивах информации. К нему относятся как тексты на языках человеческого общения (за исключением иероглифической письменности, близкой к графической форме), так и языках программирования. Нередко текстовые файлы включают фрагменты графической информации. В отличие от иллюстраций, аудио- и видеозаписей текстовые данные поддаются значительному сжатию при помощи специальных архиваторных программ.

Согласно рекомендациям РГГУ, архивирование файлов лучше производить в незашифрованном виде с помощью ZIP (*.zip), а текстовую информацию целесообразнее записывать в следующих форматах: XML (includes XSD/XSL/ XHTML), PDF/A-1 (ISO 19005-1) (*.pdf), PDF/A-2 (ISO 19005-2:2011) (*.pdf). С некоторыми условиями могут быть использованы текстовые форматы: Plain text (ISO 8859-1encoding), PDF (*.pdf) (embedded fonts), Rich Text Format 1.x (*.rtf), HTML (include a DOCTYPE declaration), SGML (*.sgml), Open Office (*.sxw/*.odt), OOXML (ISO/IEC DIS 29500) (*.docx), EPUB (unencrypted) (*.epub). Наибольшую стабильность при миграции из одного формата в выбранном программном обеспечении в другой ведут себя форматы *.doc и *.xml. В таблице 1 представлены результаты изменений объемов информации при миграции.

Таблица 1. Матрица изменения объемов информации при миграции (во сколько раз)

Форматы файлов исходные/
Форматы файлов миграции
*.doc
Microsoft Word 97-2003
*.odt *.xml *.rtf *.pdf *.pdf (PDF/A)
*.doc
Microsoft Word 97-2003
исходный <3,3 >2,2 >2,7 >3,2 >3,7
*.odt >3,4 исходный >8,4 >7,7 >10 >18,4
*.xml <2,2 <8,2 исходный >1,04 >1,4 >2,6

Отметим, что офисный пакет OpenOffice, получивший распространение благодаря свободной лицензии, имеет ряд ограничений, например, по сравнению с Microsoft Word 2007. Так, для создания файла в формате XML в OpenOffice 4 (Writer) потребуются дополнительные технические настройки системы (наличие установленного окружения Java (JRE). Родной же формат XML OpenOffice 4 *.stw пока еще не получил значимой поддержки и описания. Microsoft Word 2007 не отображает информацию в таком формате, открывая его как пустой документ.

Графические форматы

Графическая информация с высоким разрешением, особенно полихромные и полутоновые изображения, практически не поддается архивному сжатию. Как правило, для ее хранения применяются растровые форматы, которые обеспечивают хранение реалистичных сцен с большой глубиной цвета. По итогам сравнительного анализа только три формата оказались наиболее пригодными для долговременного хранения растровых изображений: TIFF (uncompressed), JPEG2000 (lossless) (*.jp2), PNG (*.png).

Для векторных изображений рекомендуемым форматом является SVG (no Java script binding) (*.svg). Чертежи, структурные схемы, графически представленные алгоритмы, состоящие из графических примитивов (отрезков и ломаных линий, многоугольников, окружностей и эллипсов), наиболее эффективно реализуются в таких векторных форматах, как SWG, WMF, CGM и им подобных. Однако нельзя забывать о том, что векторные форматы обычно приводят к искажению цветовой схемы сложного изображения.

Для кодирования 3D-изображений (виртуальных форматов данных) приемлемо использование формата X3D (*.x3d).

Аудио- и видеоформаты

Как и графическая информация, аудио- и видеоинформация почти не поддается эффективному архивированию: в среднем их сжатие не превышает 5%. Выбор различных видов кодирования таких данных существенно влияет на объем хранимого файла, поэтому от требуемого качества воспроизведения и, как следствие, доступного объема архивного хранилища зависит предпочтение того или иного формата. Рекомендованные форматы хранения аудиоинформации: AIFF (PCM) (*.aif, *.aiff), WAV (PCM) (*.wav), AES3 (LPCM) (*.aes). Лучшие результаты по итогам сравнения для сохранности видеоданных показали форматы: Motion JPEG 2000 (ISO/IEC 15444-4)(*.mj2), AVI (uncompressed, motion JPEG) (*.avi), QuickTime Movie (uncompressed, motion JPEG) (*.mov).

Базы и банки данных

Выбор формата хранения базы зависит в основном от ее структуры. Если база представляет собой один файл, то целесообразно хранить ее в кодировке, соответствующей этому типу файла. При хранении базы, записи которой состоят из полей разной структуры, наиболее часто применяются кодировки RTF и PDF, но в том лишь случае, если в базе нет аудио- и видеофрагментов. Наиболее универсальными форматами для долговременного хранения баз данных являются Comma Separated Values (*.csv), Delimited Text (*.txt), SQL DDL. В редких случаях могут быть использованы форматы: DBF (*.dbf), OpenOffice (*.sxc/*.ods), OOXML (ISO/IEC 29500)(*.xlsx).

Презентации

Ни один из существующих форматов не обеспечивает высокую степень надежности сохранности презентации. С некоторыми оговорками можно рекомендовать форматы OpenOffice (*.sxi/*.odp) и OOXML (ISO/IEC DIS 29500) (*.pptx). Формат PowerPoint (*.ppt) и другие форматы презентационных файлов не отвечают требованиям долговременного хранения.

Гибридная информация

Для хранения комплексных документов, в структуру которых входят фрагменты различной природы (текст, фотография, чертеж и т.д.), наиболее пригодны современные текстовые форматы типа MS WORD, RTF. Они позволяют включать графические изображения в растровых кодировках. Если иллюстраций много, то такой документ рекомендуется хранить в виде единого изображения – в этом случае предпочтительными являются графические форматы.

Примечания:

  1. Научно-исследовательская работа проводилась в рамках государственного контракта № 016-3 от 31 мая 2013 года «Исследование современных процессов документационного обеспечения управления и развития электронного документооборота. «Научный доклад «Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения» (в рамках реализации мероприятий федеральной целевой программы «Культура России» (2012-2018 годы).
  2. ГОСТ Р ИСО 15489-1-2007 «Национальный стандарт Российской Федерации. Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Общие требования» (утв. Приказом Ростехрегулирования от 12.03.2007 года № 28-ст).
  3. Миграция электронных документов – действие по перемещению записей из одной системы в другую систему при сохранении их аутентичности, целостности, надежности и удобства в использовании.
  4. Структура описания документа состоит из описания его физической или технической структуры и его логической структуры, то есть отношений между элементами данных, составляющих документ. Подробнее о создании, управлении и использовании метаданных см. ГОСТ Р ИСО 23081-1-2008. Система стандартов по информации, библиотечному и издательскому делу. Процессы управления документами. Метаданные для документов. Часть 1. Принципы (утв. Приказом Ростехрегулирования от 13.11.2008 года № 310-ст).
  5. ГОСТ Р 54471-2011 «Системы электронного документооборота. Управление документацией. Информация, сохраняемая в электронном виде. Рекомендации по обеспечению достоверности и надежности».
  6. Правила организации хранения, комплектования, учета и использования документов Архивного фонда РФ и других архивных документов в государственных и муниципальных архивах, музеях и библиотеках, организациях Российской Академии наук (утв. приказом Министерства культуры и массовых коммуникаций РФ от 18 января 2007 года № 19).
  7. См. там же п 4.4.3.
  8. Репликация – это метод сохранения цифровой информации путем создания одной или нескольких полных копий (клонов) цифровых материалов. Репликация требует специальных мероприятий по поддержке всех копий в актуальном состоянии.

Текстовые файлы -- наиболее распространенный тип данных в компьютерном мире. Существуют несколько проблем, связанных с текстовыми файлами. Первая -- чрезвычайно большое количество символов, требующихся для поддержки различных языков. Американские программисты для работы со 128 символами используют набор символов US ASCII (американский стандартный код для обмена информацией). Для поддержки других языков зачастую не хватает и 256 символов, поэтому сейчас осуществляется постепенный переход к кодировке Unicode, в которой для хранения одного символа отводится уже два байта (т. е. имеется возможность закодировать 65 536 различных символов).

Вторая проблема заключается в том, что люди хотят, чтобы распечатываемые документы содержали графики, диаграммы, примечания, заголовки и чтобы при этом использовались различные шрифты. Документы, распространяемые в Интернет (онлайновые документы), могут содержать мультипликацию, ссылки на различные сетевые ресурсы и звуковое сопровождение.

Многие текстовые файлы передаются в виде простого текста (plain text). Простой текст сложно сделать привлекательным и легко читаемым, так как в нем нет шрифтов различных начертаний, графики, заголовков, подзаголовков и т. д. Эти дополнительные особенности носят название разметки текста (markup).

Говоря о разметке текста, выделяют понятия физической и логической разметки. При использовании физической разметки текста указывается точный вид каждого фрагмента. Например, "центрированный текст, 14-м кеглем, жирный, гарнитура Times". При логической разметке указывается логическое значение данного фрагмента, например, "это заголовок главы". Эти два способа разметки предназначаются, как правило, для использования в разных ситуациях. Для того чтобы распечатать текст на принтере, необходимо использовать физическую разметку. Должны быть приняты решения о размере полей и абзацных отступах. Ранние версии текстовых процессоров использовали только физический тип разметки. При этом для каждого фрагмента указывался шрифт, размер и стиль.

При обмене информацией с другими людьми физическое оформление текста накладывает ряд ограничений, особенно для онлайновых документов. Размер экрана, разрешение, шрифты различны для различных систем. По этим причинам все чаще используется логическое оформление текста. В некоторых случаях логическое оформление практически необходимо: при создании электронных документов типа страниц WWW или при создании и публикации объемных трудов, таких как книги.

Для сохранения разметки документов при передаче текстовой информации от машины к машине применяют разные способы. Текстовые процессоры и издательские системы используют специально разработанные форматы файлов, содержащие не только текст, но и информацию о том, как он должен быть оформлен. Основная проблема здесь в несовместимости таких форматов, хотя наиболее сложные программы обычно могут читать файлы в форматах программ-конкурентов. Примерами такого подхода являются текстовые процессоры Word и StarWriter.

При другом подходе непосредственно в текст документа вставляются специальные команды разметки. Даже если у вас нет программного обеспечения, поддерживающего такой формат, вы все же сумеете в нем разобраться. Существует немало способов подобного представления разметки текста, в том числе:

  • HyperText Markup Language (HTML), использующийся в World Wide Web;
  • TeX и LaTeX, пользующиеся популярностью у многих академических изданий, а также у математиков, физиков, химиков и даже музыкантов.

Примерами программ, которые позволяют разметить текст подобным образом, служат Netscape Composer и LyX (KLyX).

Файлы, созданные разными редакторами, зачастую имеют уникальные расширения, позволяющие, не заглядывая внутрь документа, догадаться о способах разметки текста. Так файлы, созданные редакторами подготовки plain-текста, часто имеют расширение.txt, а подготовленные в редакторе Lyx -- .lyx. Текстовый процессор Word по умолчанию создает файлы в формате MS Word (расширение.doc), но поддерживает и другие форматы, например RTF (расширение.rtf). Документы, содержащие команды разметки языка HTML, имеют расширение.html или.htm.

Очевидно, что невозможно перечислить все текстовые редакторы. Многие из них "заточены" под ту или иную специфическую деятельность. В списке, рассмотренном ниже, представлена лишь небольшая часть текстовых редакторов.

Редакторы неформатированных текстов

NotePad встроен в операционную систему Windows, понятен и прост и использовании; McEdit имеет сходство с редактором Edit из MS DOS, компонента файлового менеджера mc (Midnight Commander) ОС Linux; KEdit простейший текстовый редактор, входит в состав KDE Linux; KWrite текстовый редактор, имеющий ряд дополнительных настроек по сравнению с другими простейшими текстовыми редакторами; Emacs совмещает в себе функции файлового менеджера и текстового редактора; одной из отличительных черт является возможность создание макрокоманд (макросов); имеется во всех клонах Unix, в том числе и Linux; Emacs можно использовать и в MS Windows.

Редакторы, создающие текст с элементами разметки

Word служит для создания разнообразных печатных документов, является компонентом офисных приложений в MS Windows; StarWriter входит в состав программы StarOffice, внешним видом и функциональностью он похож на Word, одинаково хорошо работает как в MS Windows, так и в ОС Linux; LyX (KLyX в KDE) современный текстовый редактор, предназначенный для людей, которые хотят получить документ, выглядящий профессионально, но затратить на его создание минимум времени; редактор вставляет в текст команды разметки TeX и LaTeX; Netscape Composer вставляет в текст команды разметки языка HTML, существуют версии как для ОС Linux, так и для MS Windows.

То есть форматы для хранения текстовых файлов. Сейчас основным средством, практически монополистом в подготовке стандартных текстовых документов является программа MicrosoftWord, поэтому далее основное внимание будет уделено форматам, предназначенным для этой программы.

а) DOC . Форматы, имеющие расширение. doc это обычный способ представления текста вMicrosoftWord. Текст с расширением.docсодержит данные о том, где и какая осуществляется разбивка на строки и абзацы, способы выравнивания текста, отбивка между строками и абзацами, вид и начертания шрифтов и так далее. Все это называетсяформатированием текста . Форматирование текста и формат файла – это совершенно разные понятия, хотя выражены они близкими словами.

Не всегда старая версия MicrosoftWordне может прочитать то, что создано на более современной версии. Или при переходе на более старую версию либо другую программу теряется что-то из форматирования документа. Но более новые версии всегда полностью могут читать то, что создано в более ранних версиях.

Формат DOC позволяет создать самое качественное форматирование текста, но созданный текст не всегда воспроизводим на другом компьютере.

б) RTF . Расширение.rtfрасшифровывается какright text format , что значитправильный текстовый формат . Форматы семействаrtfобладает очень широкой совместимостью, их понимают все текстовые процессоры, старые и новые. Но не все текстовые редакторы, так как редакторы – более примитивные средства работы с текстом. Многие нетекстовые (например, графические) программы значительно лучше работают сrtf, чем сdoc. Совместимость реализуется потому, что вrtfформатирование преобразуется в программные инструкции, которые позволяют открывать и просматривать документ в различными средствами.

Если нужно переписать с помощью дискеты текст на другой компьютер, при этом неизвестно какая на нем стоит программа работы с текстом, то надежнее всего сохранить его в формате rtf. Файл форматаrtfимеет несколько больший объем, чемdoc, но появляется гарантия, что другой компьютер этот текст поймет.

Формат RTF позволяет воспроизвести созданный текст на любой версии Microsoft Word и во многих нетекстовых программах.

в) TXT . Это примитивный текстовый формат, не содержащий сложного форматирования. Из форматирования здесь сохраняется только деление на абзацы, и каждая строка превращается в абзац. Форматtxt, применяется программистами для написания программного кода, т.к. компьютер не нуждается в «красивом» по человеческим понятиям оформлении текста. Еще форматtxtиспользуют тогда, когда текст должны понять пользователи с разным программным обеспечением, когда конечная программа не распознает другие форматы файлов.

В Windowsимеется программное средство для работы с текстами в формате.txt–Notepad (Блокнот) , с его помощью удобно просматривать различные программы и электронные документы, не предназначенные для распечатки.

Сообщения электронной почты также не имеют развитого форматирования. Поэтому, если вы отправите документ в виде почтового сообщения, то он потеряет свой внешний вид. Если же требуется передать по почте не только содержание, но и внешний вид текста, то его надо отправлять в виде файла формата doc, прикрепленного к почтовому сообщению.

Существует много других текстовых форматов . 10 и более лет назад кромеWordбыли популярны несколько других текстовых программ, например, отечественная программа «Лексикон». Для программ, вытесненныхMicrosoftWord, были разработаны свои, оригинальные текстовые форматы, которые могут понадобиться при прочтении текстов того времени.

Наконец, текст можно хранить и в той или иной степени редактировать в десятках других форматах, предназначенных не для создания текстовых документов, а для других целей. В качестве примеров можно привести формат . html для созданияWeb-сайтов, . xlx для табличного редактораExcel, популярныйPostScriptформат. pdf и множество других.