Методика оцифровки архивных документов. Как оцифровать ваши документы


У вас начались серьезные проблемы с хранением бумажных документов? Полки ломятся от нелепо раздувшихся папок, и вы по три часа ищите нужную бумажку? Тогда пришло время заняться оцифровкой документов, которая сделает ваш кабинет или квартиру более чистой, а способ поиска более простым и удобным. Создайте собственную электронную библиотеку, редактируйте, копируйте и перемещайте цифровые файлы по своему желанию. Возможность создания цифровых документов - одно из благ цивилизации. Так воспользуйтесь им!

Прежде, чем отважиться на оцифровку своих документов, вам следует знать, что хранить их можно двумя способами - в виде изображений и в виде текстовых файлов. Хранение изображений потребует гораздо больше места на жестком диске, но при этом вы сможете сохранить стиль исходного документа. Преобразование отсканированных изображений в текстовый файл потребует дополнительных затрат времени, так как необходимо осуществить процесс оптического распознавания символов OCR (правда, если быть точным, то это название не совсем верно, так как здесь речь идет о работе с цифровой информацией, однако, как это нередко бывает, термин прижился).

Как же выбрать формат хранения документов? Очень просто: если оригинал документа написан от руки, и вам важно сохранить его «характерность» (письмо от любимого человека) или если документ является, к примеру, произведением искусства, то сохраните его в виде изображения (иногда узнаваемый почерк столь же важен, как и написанные слова). Другой более прозаической причиной для сохранения рукописных документов в виде изображений является отсутствие коммерчески доступного программного решения, пригодного для интерпретации рукописных символов. Пока эта технология застряла в КПК и планшетах, в которых она реализована несколько в ином виде, чем нам требуется. Работая с планшетом, вы пишите символы «от руки», вводя их по порядку, а программа в режиме реального времени преобразует их в печатный текст. Распознавание почерка отдельно взятого человека с отсканированного документа - дело будущего.

Сканеры

Независимо от того, в каком виде выбудете хранить ваши документы - в виде изображений или в виде текстовых файлов, вам понадобится сканер для их оцифровки. Если вы хотите оцифровать сравнительно небольшое количество документов, то многофункционального принтера или планшетного сканера вам будет вполне достаточно. Единственный их недостаток - относительно медленная скорость работы. Имейте в виду, что только более дорогие модели имеют функцию автоматической подачи листов для обработки многостраничных документов.


Среди самых лучших моделей назовем ScanSnap S1500 от Fujitsu и ScanJet Professional 3000 от HP. Скорость сканирования документов этих устройств составляет в среднем 20 страниц в минуту и выше. При этом ScanJet Professional 3000 отличается более надежным механизмом подачи бумаги, в то время как ScanSnap S1500 имеет более совершенное программное обеспечение. Оба сканера находятся примерно в одной ценовой категории, так что выбирать вам.

OCR - софт

Большинство сканеров поставляются с программным обеспечением для осуществления OCR, которое устанавливается на вашем компьютере. Если вы недовольны сопутствующим ПО или его нет, то подобные программы вещь довольно распространенная и их можно приобрести отдельно. Существуют следующие рыночные предложения:

FineReader 9 Express от ABBYY, $ 100 за обычную и $ 400 за профессиональную версию программы Pro 10;
. OmniPage 17 Standard от Nuance, $ 150 за обычную версию программы и $ 500 за профессиональную;
. Acrobat X Standard от Adobe, $ 299 за обычную версию и $ 449 за профессиональную;
. PaperPort 12 Standard от Nuance стоит $ 100 за обычную и $ 200 за профессиональную версию ПО, правда здесь нет функции OCR, только вариант управления отсканированными документами.

Разрешение

Для документов, хранящихся в виде изображений, как правило, достаточно выставить разрешение от 150 до 200 точек на дюйм, однако OCR - софт работает гораздо лучше, если изображения сохранены в более высоком разрешении - 300 пикселей на дюйм. Все зависит от того, что вам нужно. Если вы просто хотите сохранить хотя бы минимальную читабельность отсканированного документа, можете снизить требования к разрешению. Если для вас важно высокое качество, то, соответственно, увеличьте его.

OCR в веб

Существует несколько онлайн-сервисов, которые предоставляют услугу распознавания отсканированных документов. Среди наиболее известных назовем бесплатные ресурсы Free OCR , NewOCR и OCR Online . Они прекрасно подходят для небольших проектов, то есть работают только с небольшими по объему документами. Сначала вы должны отсканировать оригинал в память компьютера, а затем загрузить изображение документа на веб-сайт. Естественно, на каждом из ресурсов существуют свои ограничения как по объему, так и по содержанию документа. Так, веб-приложения распознают исключительно текст, без линий или дополнительных символов, которые присутствуют на странице.

Сервис Free OCR является бесплатным, однако размер загружаемого файла не может превышать 2 Мб и не содержать не более чем 5000 пикселей, а это примерно 50 точек на дюйм для документа обычного стандарта. Причем, вы сможете обработать не более 10 подобных документов в час. Услугами сайта NewOCR вы также можете воспользоваться бесплатно, но его интерфейс крайне примитивен, зато объем обрабатываемых документов в 2,5 раза больше - до 5 Мб. И, наконец, ресурс OCR Online требует создания бесплатного аккаунта, но позволяет загружать до 15 файлов в час объемом до 4 Мб в разрешении около 200 точек на дюйм на странице. Если вас такие объемы не устраивают, то можно купить платный доступ за $ 3.95 (8 центов за страницу) и получить возможность обработать до 50 документов за раз или заплатить $ 49.95 за обработку до 5000 (1 цент за страницу). Данное веб-приложение работает как с текстом, так и с графическими элементами, однако ему, естественно, далеко до стандартов Acrobat X или FineReader 10.

E-книги

Наверное, вы, как и я, любите запах настоящей книги, любите ощущение плотной бумаги и вид красивой графики. Однако сегодня все больше и больше людей предпочитают иметь дело с электронными книгами, для чтения которых используются так называемые специальные читалки, планшеты, смартфоны, плееры и прочие портативные устройства. Огромное количество интернет-магазинов предлагает просто гигантские объемы контента. Но что, если вы захотите иметь вашу собственную коллекцию е-книг, которые не доступны в цифровом формате?

Чтобы преобразовать ваши любимые «физические» книги в электронные, требуется их сначала отсканировать, а затем перевести в текстовый формат при помощи программы OCR. Это утомительно даже если вы будете использовать очень быстрый FLATBED-сканер. Такие сканеры напоминают «ксероксы», имея прижимную крышку, поэтому они могут сканировать не только отдельные листы, но и книги целиком. Если же вы готовы «распотрошить» любимую книгу, то можете использовать SHEETFED-сканер, которая работает по принципу факса, то есть с отдельными страницами (как ScanSnap S1500 от Fujitsu и ScanJet Professional 3000 от HP).

После того, как вы переведете свои документы, учебники или книги в форматы PDF, Word или fb2, вы можете воспользоваться специальными программами для организации, редактирования или чтения электронных документов. Например, Calibre или Stanza. - бесплатный органайзер и редактор для вашей коллекции электронных книг. Программа помогает работать с каталогом - организовывать, классифицировать, комментировать, искать, сохранять новые и старые книги на жестком диске вашего компьютера или в памяти е-ридера.

Бумага - материал не вечный, быстро стареющий и легко уничтожаемый. Поэтому важную информацию, которая содержится в бумажных документах, можно легко потерять. Кроме этого, в процессе хранения документы на бумажных носителях занимают драгоценное офисное пространство, а также создают множество других проблем.
Справиться со всеми неудобствами и повысить эффективность делопроизводства в целом поможет оцифровка архивов. Современные технологии позволяют перенести всю важную текстовую и графическую информацию на электронные носители, то есть выполнить оцифровку документов.

Актуальность оцифровки

Для многих организаций оцифровка документов актуальна. Ведь чем крупнее организация, тем сложнее структура документооборота в ней, а это значит, что оцифровка бумажных архивов рано или поздно станет жизненно необходимой. Оцифровка архивов представляет собой процесс сканирования и последующей каталогизации всех документов организации.

Что это даёт?

В архивах искать необходимый документ можно часами, даже не смотря на то, что все документы распределены по папкам. Когда необходимо оперативно предоставить какую-либо информацию, лишь предварительная оцифровка бумажных архивов поможет быстро подготовить документы и предоставить их на подпись. Одним словом, используя бумажные архивы, вы теряете очень важное для любого бизнеса качество - оперативность!

Сохранность документов

Бумажные документы очень легко повредить и потерять, если во время архивации документ был размещён неверно. Оцифровка документов полностью исключает их повреждение, а удобная цифровая каталогизация позволяет осуществлять быстрый поиск по документам. Сегодня повысить эффективность делопроизводства достаточно легко.

Результаты оцифровки документов

Таким образом, все документы сохраняются в оригинальном виде с сохранением всех необходимых данных. Когда все бумажные документы пройдут процедуру оцифровки, их описывают и систематизируют. Затем их брошюруют и составляют полный каталог документов в соответствии со спецификой и потребностями организации.

Преимущества работы с нами

Воспользовавшись услугой нашей компании по оцифровке архивных документов, вы сможете снизить нагрузку как на бумажные архивы, так и на отдел ксерокопирования вашей организации, потому что документы будут доступны всем специалистам организации. Так же эффективнее использовать полезную площадь офиса и сократить расходы на содержание бумажного архива, и пользоваться оцифрованными документами удалённо через интернет, что позволит всегда под рукой иметь все необходимые документы.

SCAN: Технологии

Что такое оцифровка?

02.10.2015, Пт, 14:05, Мск 2707

Сканирование, ретроконверсия и сопутствующие услуги. Обзор технологий перевода документов в электронный вид.

Существует несколько вариантов организации процессов оцифровки. Они могут производиться самостоятельно или с аутсорсингом услуг, с вывозом документов или выполнением работ на своей территории. При оцифровке могут применяться офисные, профессиональные документные или планетарные сканеры. Данные могут извлекаться в ручном, полуавтоматическом или автоматическом режимах, с проведением предварительной архивной обработки бумажных документов или классификацией информации уже в электронном виде и т.д.

Какой путь выбрать?

Решение зависит от конкретной задачи, потому что каждое из вышеупомянутых «или» определяет качество получаемого результата и стоимость работ. Например, извечен вопрос сшитых документов: выгодней медленно отсканировать в сшитом состоянии или потратиться на расшивку, зато быстро оцифровать на документных сканерах?

Самый простой способ выбрать наиболее подходящий для вас путь – обратиться за экспертизой к специализирующейся на оцифровке организации. Заинтересованные в работах, крупные компании проведут обследование бесплатно, и за вас определят оптимальный подход. Не пренебрегайте этой возможностью и не ждите склонения к заказу услуг: большинство этих компаний также заинтересованы в поставке оборудования и ПО для самостоятельной оцифровки.

Сколько документов нужно сканировать?

Определяющий параметр – объем документов.

Определяющий параметр – объем документов. Для ежедневного сканирования небольших пачек расшитых документов (например, первичной бухгалтерии) подойдет обычный офисный сканер, выдерживающий нагрузку в несколько тысяч страниц в день. Нужно лишь дополнить его удобной программой для индексирования.

Для регулярного сканирования больших объемов необходимо профессиональное оборудование. Это – промышленные сканеры, которые стоят немалых денег (подобное оборудование используют ФНС, ФТС, крупные банки). Поэтому менее дорогой альтернативой может стать рамочное соглашение на оказание периодических услуг оцифровки.

Перевод в электронный вид больших ретроспективных массивов своими силами экономически не обоснован: помимо закупки оборудования и обучения сотрудников, потребуются значительные трудовые и временные затраты. Однозначно эффективнее заказывать услугу, так как крупная компания может выделить большой штат и решить задачу оперативно.

Где сканировать документы?

Определяющий параметр – востребованность сканируемых документов. Влияет ли на деятельность организации изъятие документов на время сканирования? Особенно это критично при оцифровке документов, к которым регулярно обращаются сотрудники, либо которые могут быть внезапно запрошены контролирующим органом, а также для устранения связанных с документами ЧП. Примеры: финансовые и кадровые документы, техническая и эксплуатационная документация, книги ЗАГС и другие отраслевые фонды.

Участок сканирования, организованный в помещениях компании-заказчика услуг.

Если необходимо оцифровать их достаточно быстро, то традиционным подходом является заказ услуг с выездом бригады сканирования на вашу территорию. Зачастую это оказывается дешевле, чем доставлять документы на производство исполнителя и обратно, но все определяет территориальная удаленность. Регламент выездных работ подразумевает сканирование выданного дела в течение одного-двух рабочих дней, без длительного изъятия из рабочего процесса.

Расшивать ли документы?

Определяющие параметры: состояние документов и возможность расшивки. Если есть такая возможность, и бумага пригодна для протяжки документным сканером, то следует расшивать. Дело в том, что сканирование сшитых документов на планетарном (книжном) сканере в несколько десятков раз медленнее потоковой оцифровки. Пропорционально увеличиваются время работ и стоимость труда. Сканирование на документных сканерах, даже с учетом расшивки, оперативнее и дешевле.

Расшивать можно самостоятельно, а можно доверить это исполнителю.

Расшивать можно самостоятельно, а можно доверить это исполнителю: если выбрана авторитетная компания, опасаться утраты документов не стоит. Наоборот, жесткая регламентация всех процессов и качественные материалы позволяют компаниям застраховаться от дополнительных финансовых потерь и ущерба имиджу. Этому подходу доверяют даже российские суды: при организации сканирования обычно внутренним приказом разрешается расшивка и последующая сшивка судебных дел.

К слову, крупные компании параллельно могут провести профессиональную архивную обработку: во-первых, часть работ итак выполняется при подготовке к сканированию, во-вторых, архивная обработка помогает выявить невостребованные документы и сократить объемы сканируемых массивов, что может снизить стоимость работ.

Какое качество выбрать?

Сегодня высококачественно можно отсканировать любой объект: от маленькой библиотечной карточки до карт формата 8А0 и театральных декораций.

Определяющие параметры: вид документа и объем получаемого ресурса в электронной форме. Сегодня сканирующее оборудование позволяет получать образы с разрешением от 200 до 1200 точек на дюйм (dpi). Для художественных произведений обычно применяется разрешение 400–600 dpi, позволяющее создавать высококачественные репродукции. Более высокое качество используется только при необходимости увеличения изображения и детализации мелких предметов, например, монет.

Детализированные и неконтрастные чертежи, часто выполненные на кальке и синьке, нуждаются в сканировании с разрешением 300-400 точек на дюйм и дополнительной обработке изображений в графических редакторах. Остальные документы обычно сканируются с разрешением 300 dpi, достаточным для распечатки копий без потери качества. Необходимая обрезка изображений, геометрическое исправление, цветокоррекция, конвертация в форматы pdf, tiff, jpegи др. может проводиться в полностью автоматическом режиме программами, встроенными в сканирующее оборудование или поставляемыми вместе с ним.

В большинстве случаев используется цветной режим съемки. Это нужно для всех документов, в которые вносились исправления или ставились печати поверх текста, для удостоверения того, что электронная копия снималась с оригинала документа с печатью и подписью, а также для читаемости угасающих текстов и передачи уникальных особенностей оригинала. Необходимость цветного сканирования художественных произведений не обсуждается. Режим «градации серого» применяется лишь в некоторых случаях: когда документы не содержат цветных атрибутов, либо когда необходимо сократить объем получаемого электронного ресурса.

Сканирование может осуществляться самостоятельно. Главной задачей становится обучение сотрудников правильной работе со сложной техникой, так как качество получаемых изображений важно для последующего индексирования: плохо отсканированный документ, тени, засветка и другие дефекты на электронном образе могут сделать нечитаемой важную информацию. Это не позволит применить технологии автоматического извлечения данных и может привести к ошибкам в индексировании. Загрузка ошибочных данных в некоторые системы (государственные реестры, бухгалтерские учетные системы) не позволительна.

Индексирование

Простое сканирование применяется редко, поскольку при последующей работе искать информацию в наборе графических файлов будет лишь немногим проще перелистывания бумаги. Для возможности поиска необходимо выделить в документе несколько атрибутов (индексных полей).

Сотрудники, задействованные в массовом индексировании документов методом ручного ввода.

Выделенные атрибуты можно внести в имя файла. Такая практика сложилась в российских судах: для того чтобы оператор сканирования не имел доступа к внутренним системам суда, при оцифровке все необходимые реквизиты вносятся в имя файла. В последующем эти реквизиты распознаются системой судопроизводства при загрузке каждого документа по отдельности.

Но обычно оцифрованные документы загружаются в информационную систему группой, что требует создания базы данных. Так, если необходимо прикрепить документ к уже существующей карточке в учетной системе, бывает достаточно извлечь пару однозначно определяющих его реквизитов – обычно номер и дату.

Если же нужно сформировать поисковую базу на основании самих документов, то объем извлекаемых данных определяется задачей: от пары реквизитов для поиска файла в электронном архиве до переноса всей значимой информации в аналитическую БД (ФИО, адресов, ИНН, КПП, дат, номеров документов-приложений и т.д.).

Свои правила индексирования применяются в музеях, библиотеках и архивах при оцифровке единиц хранения и учетных документов. Отдельным направлением услуг также является векторизация, которая применяется, в частности, при оцифровке каротажных лент (автоматическая) и чертежей (ручная отрисовка в CAD-системах).

Сколько данных извлекать?Ответ на этот вопрос также лучше получить, воспользовавшись экспертизой, так как количество извлекаемых реквизитов зависит от функциональной задачи и в значительной мере определяет стоимость оцифровки. В некоторых случаях можно ограничиться подборками документов, когда электронные образы объединяются под эгидой основного документа (например, договора или реестра счетов). В других необходимо извлечение всех содержащихся в документе данных для заполнения карточки информационной системы.

Примеры извлекаемых данных

Анализ размещенных на портале zakupki.gov.ru заказов компаний с государственным участием и госучреждений (44-ФЗ, 223-ФЗ), показывает, что:

– Для привязки электронных копий ОРД к системе электронного документооборота достаточно номера, даты и типа документа.

– Сканирование финансовой документации часто сопровождается извлечением номера, даты, наименований и реквизитов плательщиков, сумм.

– Оцифровка архивных документов муниципалитетов (постановления администраций, горисполкомов, сельсоветов и т.д.) в целях оказания услуг и инвентаризации объектов земельно-имущественных отношений требует извлечения номера и даты документа, всех встречаемых ФИО и адресов. Причем адреса необходимо сопоставлять с текущими справочниками КЛАДР/ФИАС.

– Оцифровка документов Архивного фонда РФ сопровождается строгим заполнением НСА и описанием фондов в соответствии с архивным законодательством.

– Индексирование описей и реестров подразумевает распознаванием всех порядковых записей.

– Для работы с чертежами в электронном виде необходимо извлечь практически все поля штампа.

– Сканирование составных дел требует не только извлечения реквизита каждого документа, но и установления взаимосвязей. Наиболее сложен случай конструкторской документации, где формируемая база данных обладает многоуровневой иерархией и связями документов.

В век наукоемких технологий и стремительного технического прогресса, когда цифровые технологии охватывают все больше сфер человеческой деятельности, начиная от финансов и кончая космическими путешествиями, абсолютно логично использовать все преимущества цифрового формата и в деловом документообороте. Все больше и больше компаний понимают всю эффективность, которую дает перевод всей документации в цифровой вид.

Что же представляет из себя оцифровка документа ?

По сути это перевод документа на твердом носителе (это могут быть как бумажные документы, так и аудио видео записи на соответствующих носителях) в некий компьютерный код, доступный затем для просмотра, редактирования или копирования.

Трудно переоценить преимущества документов в цифровом виде. В отличие от документов на традиционных носителях, такие документы:

  • практически не подвержены старению,
  • не занимают места,
  • легко редактируются,
  • легко копируются,
  • и главное они всегда под рукой.

При правильной организации электронного архива эффективность работы любой компании несомненно возрастет. Отпадает надобность в хранении и обслуживании бумажных архивов и документации, повышается скорость делопроизводства и технологических процессов. Получение, редакция и распространение необходимых для работы документов будет занимать существенно меньшее время. Тексты договоров, схемы и чертежи могут быть найдены, отредактированы и распечатаны за время в разы меньшее, если бы это касалось бумажных версий документов.

Экономя время, мы получаем огромный выигрыш в эффективности и производительности.

Однако, при всей кажущейся простоте, оцифровка документов не такое уж и простое дело.

Качественная оцифровка документов представляет собой достаточно кропотливый и трудоемкий процесс, поскольку включает в себя не только, а скорее всего не столько, сам процесс сканирования, сколько дополнительные операции с обрабатываемым документом.

  • подготовка документа к оцифровке,
  • расшивка и последующая сшивка многостраничного документа (если это допустимо),
  • устранение, насколько это возможно, механических повреждений, замятий и заломов,
  • сверка результата оцифровки с оригиналом.