12.09.2000, Сергей Голубицкий
По коридорам редакции в перерывах между путешествиями бродит увешенная бесчисленными техно-побрякушками Palm Pilot, Nokia 7110, Twincept и т.п.) личность - говорят, это главный редактор журнала Козловский. Именно он, прочитав предыдущую
Голубятню , заявил, что я всех достал своими эмоциями: советую, мол, взахлеб программы, и при этом не подкрепляю чувства доказательствами. Это - старческий поклеп и сегодня я готов доказать свою правоту.
На свет появился FineReader пятой версии. Появился как истинный диверсант, оставив в полном неведении всезнающих жуков на Горбушке. Финальный релиз Windows Millenium, который поступит в продажу только в конце сентября, лежал на прилавках уже в июне. Ровно неделю назад я поинтересовался о наличии
FineReader 5.0 и на меня посмотрели как на ламернутого дурачка: "Мальчик, такого нет в природе"!
Нет, дядька, он в природе есть! Детали презентации программы и красочную коробку пятого Файнридера, выдающую
дизайн мирового класса, уже описал Денис Викторов в "Инфобизнесе". Козловский ничего написать не успел, потому что опять куда-то отчалил. Я же подверг новый релиз "аббийного" (от ABBYY - создателя программы) флагмана настоящему кислотному тесту, чем и готов поделиться.
Программы OCR - веселые программы. Всякий апгрейд сопровождается невиданным хайпом: из победоносного релиза
мы узнаем, что задействованы революционные технологии, полностью переписан код, радикально изменено ядро распознавания, скорость распознавания увеличилась в N-ное число раз. Это уже было и раньше в случае с четвертой версией
FineReader, то же самое я слышал в связи с
CuneiForm 2000 . Про пятую версию FineReader тоже сказано, что "точность распознавания улучшена в 1,5-2 раза по сравнению с версией 4.0".
Насколько это так, мы сейчас посмотрим. Почему речь зашла о кислотном тесте? Дело в том, что совершенно бесполезно тестировать современные программы распознавания знаков на свеженьких текстах, отпечатанных типографским способом, либо на лазерном принтере. Результат будет заведомо безупречен. Поэтому, если вам в работе приходится иметь дело только с такими документами, то создавать электронный архив можно с любой программой OCR - разницы вы не почувствуете. Другое дело - документы экстремального характера...
14 лет назад из-под тонких пальчиков профессиональной машинистки выскочили 219 страничек моей диссертации. Как водится, первый экземпляр перекочевал к научному руководителю, второй - на кафедру, третий - в Ленинскую библиотеку в архивный отдел, а вот четвертый я зажал на память. Все эти годы я периодически возвращался к этим желтым и жухлым страничкам и всякий раз убеждался, что это лучшее, что я создал в этой жизни. Вполне естественное, что желание перевести
свою диссертацию в электронный вид, не покидало меня ни на одно мгновение.
В этом контексте, я набрасывался на всякий новый пакет OCR, но вот что из этого получалось, я вам сейчас продемонстрирую.
Перед вами типичный образец оригинального текста:

По большому счету, ничего тут героического нет: ну бледненько все, ну буквы неравномерно отбились - эка невидаль! Машинистка у меня была профессиональная - брала по восемьдесят копеечек за страницу, поэтому опечаток и замазок - самая малость. Не тут-то было! Этот "исходник" оказался не по зубам всем OCR без исключения.
То, как распознал этот отрывок FineReader предыдущей версии (4.64 Professional), достойно музея Гуггенхайма:

Я лично насчитал только пять правильно распознанных слов (из 29). Сами понимаете, "оцифровывание" моей диссертации пришлось отложить до лучших времен - проще все по новой перепечатать.
Приблизительно таким же был результат у CuneiForm 96 и CuneiForm 97, и CuneiForm 98... В какой-то момент я окончательно решил, что - не судьба. Как вдруг на свет появился CuneiForm 2000. Прорыв - на лицо:

Почувствуй, что говорится, разницу! Не беда, что "вещи с самом совой" и гарантия в четыре слова - "р их га антий". Тут уже можно было работать. И я принялся не спеша, неделя за неделей, разгребать авгиевы конюшни ультра-современных технологий.
Но, как оказалось, я переоценил свое терпение. Потому как через месяц мне вся эта процедура обрыдла выше крыши. И я опять остался сидеть у самого синего моря в ожидании золотой рыбки.
В минувшее воскресенье я подставил свою диссертацию под FineReader 5.0. В успех не верил. Вот что получилось:

Нужны ли какие-нибудь комментарии? Нужны ли мои традиционные "эмоции взахлеб"? Думаю - нет. Факты, господа, одни только факты. Говорят, "аббисты-файнридерцы" переписали код программы с нуля. Если это так, то перед нами лишнее доказательство того, что русский человек не может ничего построить без того, чтобы сперва не развалить!