Проблемы долгосрочного хранения электронных деловых документов

Автор: Г.П. Акимова, М.А. Пашкин, Е.В. Пашкина, А.В. Соловьев

Г.П. Акимова, к.т.н., М.А. Пашкин, Е.В. Пашкина, А.В. Соловьев, к.т.н.

  • Терминология в области электронных архивов.
  • Задача обеспечения долговременного хранения и доступности электронного документа и проблемы ее реализации.
  • Модель документа в электронном архиве долгосрочного хранения.

Общая тенденция развития компьютерных средств работы с электронными документами говорит о том, что в ближайшее время вытеснение бумажных документов станет массовым явлением, и подходы к хранению электронных документов должны быть выработаны уже сейчас. В настоящее время многие организации (ПФ РФ, ФНС и др.) начинают активно замещать документы бумажные электронными, а значит, при длительных сроках хранения должна быть обеспечена их сохранность,читаемость и аутентичность в течение всего срока хранения.

Опуская проблемы отбора документов для длительного хранения, экспертизы ценности документов, а также возможности хранения документов на бумаге с созданием реквизитной поисковой системы или возможность печати электронных документов с их последующим хранением в бумажном виде, сосредоточимся на проблемах длительного хранения именно электронных деловыхдокументов.

Для начала определимся с терминологией.

Электронный архив (ЭА) — структурированное хранилище неизменяемых электронных оригиналов документов (электронных изображений бумажных документов), созданное на основе законов и правил ведения архивов на конкретной территории (в конкретной стране).

Долговременное хранение — хранение электронных документов сроком не менее 5 лет.

Доступность информации — «возможность реализации беспрепятственного доступа к информации субъектов, имеющих на это надлежащие полномочия» и одновременное «избежание временного или постоянного сокрытия этой информации от пользователей, получивших права доступа» .

Деловой документ —это официальный документ, использующийся в делопроизводстве организаций, регламентирующий деятельность организаций (учреждений, предприятий, фирм), должностных лиц. К таким документам относятся (список неполный): организационно-правовые, распорядительные, плановые, финансово-аналитические, кадровые, отчетные, нормативно-справочные, договорные документы. В рамках данной статьи не рассматриваются вопросы хранения гипертекстовых документов (сайтов), аудио и видео, программного кода, исполняемых файлов.
Доступность документа — свойство документа, состоящее в том, что форма представления документа обеспечивает физическую возможность измерения заданных параметров этого представления документа (содержания, атрибутов, технологии) заданными средствами в заданных точках за конечное время
.
Аутентичный электронный документ — «электронный документ, точность, надежность и целостность которого сохраняются с течением времени»
.
Электронная подпись (ЭП), Квалифицированная электронная подпись, Удостоверяющий центр (УЦ) — термины определены в соответствии с Федеральным законом РФ от 06.04.2011 № 63-ФЗ «Об электронной подписи».
В простейшей постановке задача формулируется следующим образом. Требуется обеспечить долговременное хранение электронных документов, их доступность и читаемость в программно-аппаратной среде, причем в течение всего срока хранения должна обеспечиваться аутентичность документа. При этом предполагается, что: аутентичность документа на момент передачи его в архив подтверждена; документы не искажены; сохранность документов полная; нет ограничений на форматы данных передаваемых в ЭА документов; ЭА сертифицирован для работы со средствами ЭП.
При долговременном хранении электронных документов следует исходить из того, что жизненный цикл самого электронного документа определяет информационную среду, а не жизненный цикл информационной системы, в которой документы являются входными и выходными данными. При долговременном хранении гарантированно истекают сроки действия сертификатов ЭП, завершается поддержка версий операционных систем (ОС) и прикладного программного обеспечения, в котором создан документ, версий электронных форматов, в которых создан документ, подвергаются износу и меняются носители информации (диски, флэш-устройства, компакт-диски и др.), тем самым документ гарантированно будет многократно перезаписан на другие носители информации.
Тем самым проблемы, которые всегда возникнут при решении поставленной задачи, следующие:

  • аутентичность документа в течение всего срока хранения;
  • старение носителей информации;
  • перемещение данных и сохранность метаданных;
  • интерпретируемость и отображение электронных документов.

Указанные выше проблемы, конечно, хорошо известны и неоднократно обсуждаемы в среде разработчиков ЭА (см., например, ГОСТ Р 54989-2012,являющийся переводом ISOTR 18492:2005, а также иные «переведенные» ГОСТ и системы требований). Однако в перечисленных документах описание проблем носит скорее рекомендательный характер и формулируется как «разработчики ЭА должны продумать» те или иные вопросы.

Список перечисленных выше проблем не является полным, важными проблемами являются также: информационная безопасность, хранение и обработка больших объемов данных, задачапервоначального наполнения, задача потокового ввода, обеспечение катастрофоустойчивости решения ЭА.

Здесь мы не рассматриваем также всевозможные юридические тонкости, связанные с подписанием документов ЭП юридическими и физическими лицами, возможности непризнания электронного документа, не представляющего юридической силы.

Предлагаемые ниже решения проблем долговременного хранения касаются деловых электронных документов, в данном исследовании мы не рассматриваем видео- и аудиодокументы, программный код, веб-документы, конструкторскую документацию.

Обеспечение аутентичности документа

На настоящий момент основным решением проблемы сохранения аутентичности документа является использование ЭП. Однако при долговременном хранении гарантированно возникнет проблема просроченных сертификатов (максимум 5 лет) и ключей подписи.

При решении данной проблемы рекомендуется использовать для длительного хранения только усиленную квалифицированную ЭП, заверенную квалифицированным сертификатом (см. [3]).Кроме того, необходимо, чтобы ЭП содержала подтвержденный штамп времени. Цепочка сертификатов ключей в идеале должна обязательно содержаться внутри ЭП или передаваться в ЭА вместе с ЭП. Только в этом случае есть гарантия, что спустя десятилетия подлинность документа можно будет подтвердить, если за это время, конечно, не изменятся стандарты и будут существовать средства проверки данной ЭП. При этом нужно учесть, что при проверке ЭП может потребоваться список отзыва сертификатов (СОС), актуальный на момент проставления подписи.

В качестве ключевой меры обеспечения аутентичности хранимых документов в ЭА авторами предлагается использовать архивную ЭП, которая автоматически вычисляется для всех электронных документов, помещаемых в ЭА. В организациях, работающих с ЭП, принято за правило периодически проводить смену ключей. Это означает, что все электронные документы, находящиеся в ЭА, следует переподписывать новым ключом ЭП (по сути новой ЭП), при этом старая ЭП должна сохраняться. Данная процедура не утверждена законодательно. Авторы считают, что процедура переподписывания документа электронной подписью оператора при вводе в архив должна быть закреплена законодательно и явиться основой для создания ЭА длительного хранения. Назовем данную процедуру инвентаризацией ЭП. В процессе инвентаризации ЭП подтверждается корректность ЭП документа, и он заверяется дополнительной ЭП (например, с ключом более высокой разрядности) в подтверждение факта инвентаризации. Новая ЭП, как более криптостойкая, исключит (или, по крайней мере, существенно снизит) риск появления в будущем документов-подделок, заверенных старыми «правильными» ЭП в БД ЭА.

Следует обратить внимание на еще один аспект, возникающий при подтверждении аутентичности заверенных ЭП электронных документов, — сложность взаимодействия ЭА с удостоверяющим центром. Особенно часто с ним сталкиваются, когда в ЭА хранятся электронные документы, подписанные ЭП, которые выданы разными УЦ, в том числе в различных регионах РФ. В таком случае возникают ситуации, когда ЭА не может проверить ЭП поступившего документа, кроме того, нет никаких гарантий хранения сертификатов ЭА самими УЦ. На данный момент решения указанной проблемы нет. В качестве одного из промежуточных решений авторы статьи предлагают непосредственно в ЭА организовать хранение всех сертификатов, списков отзыва сертификатов (СОС) и много другой дополнительной информации, на основании которой может быть проведено расследование и установлена подлинность документа.

Современное законодательство допускает наличие у одного лица (организации) нескольких ключей (сертификатов) ЭП. Также прямо не запрещено использование одного ключа (сертификатом) ЭП несколькими лицами. А это, в свою очередь, может создавать путаницу при идентификации лица, подписавшего электронный документ.

Старение носителей информации

Все имеющиеся на данный момент типы носителей информации недостаточно надежны для хранения данных десятилетиями, а тем более столетиями. Более того, из-за процесса технологического старения через несколько десятилетий не останется устройств, обеспечивающих чтение актуальных на данный момент носителей информации.

Из анализа современных технологий складывается впечатление, что производители не очень и заинтересованы в долговременном существовании тех или иных носителей, средний срок существования технологий от момента появления до почти полного исчезновения с рынка оценивается в 10-15 лет (магнитные ленты, дискеты, CD-R, DVD-Rи др.). Затем новые технологии вытесняют более старые, и производителям невыгодно будет поддерживать устаревшие технологии.

Регулярная проверка (не реже 1 раза в 3-5 лет) и перенос информации на новые носители должны обеспечить защиту от отказов и физической деградации цифровых носителей информации. Назовем такую процедуру инвентаризацией носителей. Данная операция должна включать проверку целостности данных на носителе, оценку оставшегося времени хранения данных на носителе и, при необходимости, перенос данных на новый носитель с уничтожением старого.

В случае выявления нарушения целостности данных на носителе в ходе проверки новая копия данных создается из других копий данной информации. Периоды проверки носителей данных выбираются исходя из типа носителей информации, но в любом случае интервал между проверками данных на неизменяемом носителе (носители типа WORM — write once read many) не должен превышать трех лет, т. е. раз в три года каждый носитель информации должен быть проверен и при необходимости заменен. Процесс переноса информации должен предусматривать возможность слияния данных с разных носителей, данное условие появляется из-за постоянного увеличения объемов всех видов носителей данных.

Перемещение данных и сохранность метаданных

Миграция данных должна быть неотъемлемой частью методологии создания ЭА долговременного хранения. Другой вопрос, что должно подвергаться миграции: только ли сами документы из БД ЭА или же еще связанные с ними метаданные, классификаторы, индексы и др.

Классификаторы, индексы являются неотъемлемой частью документа, поскольку определяют контекст его использования: предметную область, структуры организаций, логику хранения и классификации, связи с другими документами и т. д. Потеря этих данных при миграции может оказаться критичной, документ будет вырван из контекста использования, и понять его принадлежность какой-либо тематике будет проблематично.

Поэтому решение по миграции данных должно включать не только миграцию самих электронных документов, но и метаданных документа, расширив описание формата долгосрочного хранения (см. п. 3.4) набором тегов, которые нужны для хранения метаданных (например, расширенное дублинское ядро ) документа.
Отдельно стоит вопрос о полнотекстовых индексах документа. Конечно, не хочется терять такую ценную информацию, однако большинство СУБД не позволяет распорядиться полнотекстовыми индексами самостоятельно, а перестройка индекса для огромного массива данных после миграции может оказаться дорогостоящей по времени процедурой. Несовместимым может оказаться и формат индексов при переносе в другую среду хранения. При решении данной проблемы рекомендуется либо переносить полнотекстовые индексы вместе с документами, либо включить процедуру перестройки индексов в процесс миграции.

Процедуру миграции можно будет производить реже, если использовать преимущества виртуализации операционных систем — операционная система (ОС), запущенная на виртуальном компьютере, будет функционировать даже тогда, когда она не может быть установлена на современный компьютер. Однако рано или поздно встанет вопрос о поддержке данной старой ОС со стороны производителя. К тому же в настоящий момент существуют ограничения на использование некоторых ОС в виртуальных средах.

Интерпретируемость и отображение электронных документов

В информационном мире существует множество различных форматов электронных документов, но со временем многие из них перестают поддерживаться, а тем самым с течением времени трудно будет найти программное обеспечение, способное проинтерпретировать документ, сохраненный десятки лет назад в некотором формате.
Рассмотрим проблему читаемости собственно данных, расположенных на читаемом носителе (не столь важно, новом или старом).
Для решения этой проблемы должен быть подобран формат хранения архивных документов, отвечающий требованиям: простой, открытый и документированный, которые в свою очередь снизили бы вероятность «не интерпретируемости» документов, сохраненных в ЭА в данном формате.
В настоящее время при использовании обычных текстовых форматов офисных приложений выделяют группу рисков, которые связаны с используемыми форматами файлов: 1) проблема скрытой информации, 2) изменяемые поля, автозаполнения, макросы в документе, 3) гиперссылки на веб-страницы или на другие связанные объекты (рисунки, схемы, другие документы). Поэтому общие правила конвертации и хранения документов в ЭА просто необходимы.
Для решения проблемы интерпретируемости авторы предлагают в качестве формата архивного документа использовать открытые документированные форматы XML, ODF (утвержден в ГОСТ Р ИСО/МЭК 26300-2010), PDF/A (ISO 19005-1:2005, гарантия на поддержку — 50 лет), в один из них конвертировать принимаемые в архив файлы, сохраняя оригиналы файлов как приложения (в случае их заверения ЭП — сохраняя вместе с ЭП). Для более строго решения проблемы необходимо законодательно утвердить правила приема документов в ЭА и их переформатирование при сдаче на длительное хранение.
В процессе приема в ЭА необходимо будет перезаверить ЭП весь набор полученных файлов документов, сохраняя оригиналы документов в исходном формате и их оригинальные ЭП. Соответствующая процедура также должна быть разработана и утверждена.
Помимо преобразования электронных документов в форматы хранения документов, потребуется предусмотреть процедуру инвентаризации форматов хранения данных, в процессе выполнения которой устаревшие форматы долговременного хранения электронных документов ЭА должны быть заменены новыми с переконвертацией всех документов ЭА. Важно при конвертации сохранить внешний вид документа (форму, структуру и т. д.).
Графически модель документа в электронном архиве можно представить в виде графа (дерева), состоящего из взаимосвязанных семантических блоков Bi. Блоки в свою очередь представляют собой подграфы (поддеревья), также состоящие из семантических блоков следующего уровня: в любом документе всегда можно выделить заголовок, подзаголовки, повторяющиеся части, агрегаты (массивы, структуры данных), атомарные данные (листы дерева). Между документами могут существовать различные отношения (связи) [15], т. е. лес документов может быть связан в единый граф. При этом в вершинах деревьев можно указывать неявные связи с другими документами.
При длительном хранении документа кроме классификаторов и индексов [1], являющихся неотъемлемой частью электронного документа и проходящих вместе с ним возможные миграции данных, документ дополняется содержимым документа, преобразованным в один из форматов долгосрочного хранения (открытых, документированных форматов) XML, ODF, PDF/A. Поэтому модель документа в ЭА можно представить так:
DAr =U(i=1,N)(Bi) =ArCard U OdfD UOrD UFTIdx UCLIdx,
где ArCard — архивная карточка документа (состоит из набора реквизитов, которые могут задаваться древовидной схемой) — изменяемая часть электронного документа, может меняться форма карточки, а также состав ее реквизитов. Однако изменение значений реквизитов, по крайней мере тех, которые получены из оригинала документа, запрещено либо выполняется только уполномоченными лицами. Оперативно могут изменяться только значения реквизитов, определяющих нумерацию в данном конкретном архиве, топологию (размещение физического оригинала), служебную информацию: шифры, аннотация и т. д.;
OdfD — преобразованное к формату долгосрочного хранения содержимое оригиналов документов — неизменяемая часть электронного документа, создается при приеме документов в ЭА, OdfD заверяется ЭП (в общем случае несколькими) при приеме в ЭА;
OdfD = OdfDocU (U(i=1,N1)OdfPici) U (U(j=1,N2)Signj),
где OdfDoc — собственно преобразованное к формату долгосрочного хранения содержимое сдаваемых документов, OdfPic — набор (1 —N1) графической информации (растровые и векторные изображения, элементы презентаций и др.), подлежащей преобразованию из сдаваемых документов в графические форматы долгосрочного хранения (TIFF, JPEG, PDF/A), при этом OdfDoc содержит ссылки на графические материалы, Sign — наборЭП (1 —N2), заверяющих преобразованный документ (содержит в себе сертификаты подписавших, цепочку сертификатов, сертификаты удостоверяющих центров (УЦ));
OrD — оригиналы документов (электронные оригиналы документов или оцифрованные изображения оригинальных бумажных документов, которые далее также будем обозначать как оригиналы) — неизменяемая часть электронного документа (может включать ЭП, проставленные, например, в системе электронного документооборота —см. [1]);
FTIdx — нормализованный текст оригинала документа, представляет собой набор всех слов оригиналов документов, приведенных к единственному числу, именительному падежу (для существительных), неопределенной форме (глаголов) и т. д. Является необязательной частью документа, ссылки на элементы FTIdx содержатся в OdfDoc;
CLIdx — вектор связок между электронным документом и классификаторами <CLIdx1, … ,CLIdxk, … , CLIdxK> (k=1,K) — изменяемая часть электронного документа, т. к. набор связок может изменяться или дополняться. Является необязательной частью документа, ссылки на элементы CLIdx могут содержаться в OdfDoc. В простейшем случае представляет собой набор позиций классификаторов, с которыми связан архивный документ. В случае долговременного хранения данная часть документа является информацией о классифицировании и среде хранения (окружении) документа.
Предлагаемые решения основаны на опыте разработки электронных архивных систем, в частности ЭА долговременного хранения документов для Пенсионного фонда РФ (сроки хранения документов до 75 лет), АКБ «Газпромбанк» (сроки хранения — десятки лет), коммерческих и государственных предприятий.
Литература

  • Акимова Г.П., Пашкин М.А., Пашкина Е.В., Соловьев А.В. Архивные хранилища и электронные архивы документов, основные постулаты и проблемы разработки / Труды Института системного анализа РАН (ИСА РАН), Том 62, выпуск 4, М.: 2012, С. 3-13.
  • ГОСТ Р 54989-2012 /ISOTR 18492:2005 Обеспечение долговременной сохранности электронных документов (вступает в силу с 01.05.2013).
  • Федеральный закон Российской Федерации от 6 апреля 2011 г. N 63-ФЗ «Об электронной подписи».
  • ГОСТ Р 54471-2011/ISO/TR 15801:2009 Системы электронного документооборота. Управление документацией. Информация, сохраняемая в электронном виде. Рекомендации по обеспечению достоверности и надежности.
  • ГОСТ Р ИСО 15489-1-2007 Система стандартов по информации, библиотечному и издательскому делу. Управление документами.
  • Федеральный закон № 1-ФЗ «Об электронной цифровой подписи»от 10 января 2002 г.
  • Оптические накопители PlasmonG-серии. Электронная публикация. [http://www.plasmon.ru/g-seria.shtm].
  • Наступление SSD. «Журнал сетевых решений/LAN», № 11, 2010. Электронная публикация [http://www.osp.ru/lan/2010/11/13005552/].
  • VolkerRzehak, TexasInstruments. Особенности применения FRAM микроконтроллеров TexasInstruments. Журнал РАДИОЛОЦМАН, апрель 2012. Электронная публикация. [http://www.rlocman.ru/review/article.html?di=113273].
  • ГОСТ Р ИСО 23081-1-2008. Процессы управления документами. Метаданные для документов.
  • ГОСТ Р 34.10-2001. Информационная технология. Криптографическая защита информации. Процессы формирования и проверки электронной цифровой подписи.
  • ГОСТ Р 7.0.10-2010 (ИСО 15836:2003) «НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ. Система стандартов по информации, библиотечному и издательскому делу. НАБОР ЭЛЕМЕНТОВ МЕТАДАННЫХ „ДУБЛИНСКОЕ ЯДРО“».
  • Типовые требования к автоматизированным системам электронного документооборота. Спецификация MoReq. Версия 5.2.1, Март 2001. Электронная публикация [http://www.cornwell.co.uk/moreq.html].
  • Макаров С.Хранение e-документов: как угнаться за ИТ? Электронная публикация. [http://www.cnews.ru/reviews/index.shtml?2011/02/08/426535].
  • Белова А.Н., Соловьев А.В. Построение баз данных взаимосвязанных документов / Труды Института системного анализа РАН (ИСА РАН), Том 62, выпуск 3, М.: 2012, С. 25-30.
  • Ходаковский К.Google представила новый открытый видеостандарт.Электронная публикация [http://www.3dnews.ru/news/Google-predstavlyaet-noviy-otkritiy-videostandart/]
  • Обзор 10 облачных хранилищ данных. Электронная публикация [http://topobzor.com/obzor-10-oblachnyx-xranilishh-dannyx/.html].
  • Резервное копирование в «Облачное хранилище». Электронная публикация [http://habrahabr.ru/company/selectel/blog/168249/].
  • ШамшинаП.Ю., ШамшинаТ.А., Рижский институт транспорта и связи, Латвия. Риски информационной безопасности и аппаратно-программного средства защиты для облачных хранилищ данных [http://mosi.ru/ru/conf/news/riski-informacionnoy-bezopasnosti-i-apparatno-programmnogo-sredstva-zashchity-dlya].
  • ГОСТ Р 52292-2004.Информационная технология. Электронный обмен информацией. Термины и определения [http://www.complexdoc.ru/lib/ГОСТ%20Р%2052292-2004].
  • Решение Совета глав государств СНГ: «О Концепции сотрудничества государств-участников Содружества Независимых Государств в сфере обеспечения информационной безопасности и о Комплексном плане мероприятий по реализации Концепции сотрудничества государств-участников Содружества Независимых Государств в сфере обеспечения информационной безопасности на период с 2008 по 2010 год» [http://official.academic.ru/6177/%D0%94%D0%BE%D1%81%D1%82%D1%83%D0%BF%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8].
  • Финансовый словарь «Финам»[http://dic.academic.ru/dic.nsf/fin_enc/22465].

Решение Совета глав государств СНГ: «О Концепции сотрудничества государств-участников Содружества Независимых Государств в сфере обеспечения информационной безопасности и о Комплексном плане мероприятий по реализации Концепции сотрудничества государств-участников Содружества Независимых Государств в сфере обеспечения информационной безопасности на период с 2008 по 2010 год» [http://official.academic.ru/6177/%D0%94%D0%BE%D1%81%D1%82%D1%83%D0%BF%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8]

Финансовый словарь «Финам»[http://dic.academic.ru/dic.nsf/fin_enc/22465].

ГОСТ Р 52292-2004.Информационная технология. Электронный обмен информацией. Термины и определения [http://www.complexdoc.ru/lib/ГОСТ%20Р%2052292-2004].

ГОСТ Р 54989-2012 /ISOTR 18492:2005 Обеспечение долговременной сохранности электронных документов (вступает в силу с 01.05.2013)

ГОСТ Р 54471-2011/ISO/TR 15801:2009 Системы электронного документооборота. Управление документацией. Информация, сохраняемая в электронном виде. Рекомендации по обеспечению достоверности и надежности; ГОСТ Р ИСО 15489-1-2007 Система стандартов по информации, библиотечному и издательскому делу. Управление документами.

Типовые требования к автоматизированным системам электронного документооборота. Спецификация MoReq. Версия 5.2.1, Март 2001. Электронная публикация [http://www.cornwell.co.uk/moreq.html].

Стандарт метаданных. Создан см. Dublin Core Metadata Initiative (http://dublincore.org/). В России с 01.07.2011 действует ГОСТ Р 7.0.10-2010 (ИСО 15836:2003) «НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ. Система стандартов по информации, библиотечному и издательскому делу. НАБОР ЭЛЕМЕНТОВ МЕТАДАННЫХ „ДУБЛИНСКОЕ ЯДРО“».