Литмир - Электронная Библиотека
Содержание  
A
A

К счастью, на свете существуют программы, способные перевести сканированный текст из графического в текстовый формат – программы распознавания текста или OCR (Optical Character Recognition).

Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так работали распознавалки первого поколения), но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное – корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст – это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата – скажем, формата Microsoft Word или Excel.

Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций:

Сканирование. За эту работу отвечает, собственно, не программа OCR, а встроенное в систему программное обеспечение вашего сканера.

Сегментация. Полученную со сканера «картинку» подхватывает OCR-программа. Но до распознавания еще далеко – сначала надо отделить текстовые элементы от графики, да и текст в ряде случаев разбить на отдельные куски (например, при многоколонной верстке).

Распознавание. На этом этапе текст переводится из графической формы в текстовую.

Проверка орфографии и правка. Встроенная система проверки орфографии «проходится» по тексту, проверяя и корректируя последствия работы системы распознавания.

Сохранение. Для дальнейшей обработки документ должен быть передан «на поруки» соответствующей программе – как правило, одному из продуктов семейства Microsoft Office. Или сохранен в формате, соответствующем его содержанию: текст – в DOC или RTF, таблица – в XLS.

Все эти операции в большинстве программ OCR могут выполняться как в автоматическом, с помощью программы-мастера, так и в ручном режиме, по отдельности.

С двумя первыми и последней операциями справится любая программа распознавания. А вот весь процесс целиком по зубам, увы, только нескольким продуктам, разработанным в нашей стране. Хотя в теории с русским текстом должны справляться еще несколько западных «распознавалок», качество их работы не может сравниться с CuneiForm от фирмы Cognitive и FineReader от ABBYY Software.

Обе программы вы можете приобрести отдельно или получить бесплатно вместе с купленным вами сканером. В частности, известная во всем мире компания HewlettPackard (на долю которой приходится значительная часть рынка сканеров в России) поставляет вместе со своей продукцией упрощенную версию CuneiForm.

FineReader

Сайт: http://www.abbyy.com

Размер: 35 140 Мб (Поставляется на CD)

Статус: Commercial

Цена: $130 (Professional), $260 (Corporate)

300 лучших программ на все случаи жизни - pic61.jpg

Именно эту программу чаще всего поминают, когда речь заходит о системах распознавания. И вполне заслуженно – компания ABBYY ( http://www.abbyy.com) смогла не просто создать удобный для пользователя и качественный продукт, но и, самое главное, удачно «раскрутить» его, обеспечив «Файнридеру» пламенную любовь всей компьютерной прессы. Одно это, согласитесь, многого стоит.

Другим удачным ходом разработчиков FineReader стало внедрение в продукт массы дополнительных функций, которые простому пользователю, возможно, и без надобности, но зато производят впечатление на определенные группы покупателей. Так, одним из козырей FineReader является поддержка неимоверного количества языков распознавания – почти 200, в числе которых вы найдете экзотические и древние языки, и даже популярные языки программирования (Basic, С/C++, COBOL, Fortran, Java, Pascal)! Так что FineReader сможет без запинки справиться с древнегреческим свитком или с бледными распечатками исходных текстов программ, сделанных вашими предками лет 30 назад.

Как ни странно, большинство пользователей на деле интересуются совсем другим. Офисных работников интересует распознавание типовых форм документов, студентов – возможность быстро «передрать» для реферата многостраничный текст из учебника, сканируя и распознавая книжный разворот целиком, бухгалтеров – возможность автоматического распознавания таблиц и документов на бланках. Все это и многое другое FineReader умеет... или не все, а только частично, в зависимости от модификации продукта. Далеко не все возможности из нашего перечня включены в самую простую модификацию программы, которую вы можете получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений – для всего этого стоит приобрести профессиональную версию программы – FineReader Pro. Заодно она умеет безукоризненно читать штрихкоды, позволяет добавлять в базу данных новые языки. А самая мощная (и дорогостоящая) версия – FineReader Corporate без труда справится и с распознаванием любых бланков и форм! Эта версия отличается также поддержкой сетевого режима, возможностью удаленного администрирования и рядом других возможностей.

После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов – от документов Microsoft Office до HTML или PDF. Можно, впрочем, сразу же перебросить документ в Word или Excel, и уже там исправить все огрехи распознавания (без них обойтись просто невозможно). При этом FineReader полностью сохраняет все особенности форматирования документов и его графическое оформление.

Электронные архивы и системы поиска

Документы, как известно, имеют премерзкое свойство накапливаться. И чем больше документов, тем труднее в их залежах найти нужный. Электронные документы здесь не слишком отличаются от бумажных. Проблема места для хранения, правда, стоит в этом случае не столь остро. Но проблема поиска остается.

На вашем диске хранятся сотни и даже тысячи текстовых документов, страниц Интернета, электронных таблиц, графических и даже звуковых файлов. Попробуйте-ка быстро отыскать среди этой горы информации нужный документ – особенно если вы слабо представляете себе, где он лежит и как называется.

Выход один воспользоваться поиском, благо в Windows есть собственная искалка, которая (теоретически) может отыскать любой файл по нескольким ключевым словам. Однако стандартный механизм индексации и поиска в Windows изначально работает «спустя рукава», и на быстрый (и главное – успешный) поиск рассчитывать не приходится. Выход Windows Vista должен, как ожидается, исправить положение, ведь в эту операционную систему изначально включена мощная система индексации. Но владельцам Windows XP не стоит унывать, благо существует добрый десяток программ, которые способны решить проблему поиска без перехода на новую ОС.

Еще пару лет назад программы «локального поиска» были в страшном дефиците – несмотря на то, что время от времени появлялись удачные разработки («Следопыт», ЕВФРАТ), они либо быстро сходили со сцены, либо полностью переключались на корпоративный рынок. Единственной поисковой программой, способной корректно работать с русскоязычными текстами, оставалась Ищейка (http://www.isleuthhound.com/ru) – именно эта программа и была описана в предыдущих изданиях нашей Энциклопедии.

Но время не стоит на месте – за последние два года на свет появилось несколько новых программ, существенно превосходящих Ищейку, как в скорости индексирования, так и по удобству работы.

Яндекс. Персональный поиск

33
{"b":"133843","o":1}