irony kike Uri (riki_koen) wrote,
irony kike Uri
riki_koen

  • Mood:

Распознавание текста в линуксе

С прискорбием сообщаю вам, друзья, что на линуксовой ниве распознавания текстов (OCR — Optical Character Recognition) — лишь несколько чахлых колосков да сорные травы.

Встала задача распознать несколько страниц машинописного текста, напечатанного в далеком 1977 году. Причем набор распознаваемых символов крайне ограничен: '0123456789./E' — и только! Документ для распознавания — скан статьи в 110 страниц, причем скан хорошего качества (хотя сама статья набрана, как уже говорилось, на машинке, а диаграммы в ней нарисованы от руки, примерно полторы тысячи штук).

Я попробовал следующие OCR-системы: gocr, clara, ocrad и tesseract. Убил кучу времени и получил новый сексуальный опыт. Лучше всех с заданием справился tesseract, но результат всё равно оказался неприемлем для использования в реальной жизни. gocr и ocrad получили оценку "плохо", а clara вообще не заслуживает упоминания в приличном обществе. Кроме того я узнал, какие внешние интерфейсы можно прикрутить к этим системам. Наиболее приятным из них мне показался gscan2pdf. (Говорят, в KDE есть еще kooka, но я не смотрел.)

В результате я запустил в Wine не самую новую версию ФайнРидера, и он мгновенно выдал мне отличный результат. (Пришлось, конечно, ломать — теперь у меня на компьютере стало в два раза больше контрафактного ПО.)

Подозреваю, что проблема именно в наборе текста, потому что автор вот этого хорошего обзора OCR-систем рапортует о неплохих результатах его исследования. Но ведь было предъявлено отличное решение моей проблемы в среде MS Windows — коммерческий продукт фирмы ABBYY… Значит неча пенять…

Вывод: еще остались области, про которые можно сказать: open source — это продукты, за которые их разработчики стесняются брать деньги.
Tags: linux, misanthropy
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 2 comments