Бързо вадене на текст от сканиран документ

Процесът се нарича OCR (Optical Character Recognition) – „Оптично разчитане на символи“ и позволява от сканирани страници да се извади истински текст, който може да се публикува някъде, да се редактира с текстообработваща програма или офис пакет и т.н.

При българския език има и допълнителен проблем заради кирилицата.

Най-добрия софтуер за разчитане на кирилица е руски – ABBYY Fine Reader. Проблемът му е, че е платен, и то неприятно скъпо. А алтернатива с отворен код за кирилица все още не се е появила (или поне не такава, каквато може да се ползва лесно).

Радостното е, че има онлайн услуги, които предлагат разчитане, дори на текстове на кирилица.Това е страхотна идея, защото работата с такива софтуери не е лесна, не се намират веднага и обикновено се налага кракване, което пък води до инфекции и подобни неприятности.

Аз лично използвах преди малко OCR Online и съм доста доволен — справи се почти перфектно. Изглежда, че таблиците доста го объркват, така че може би е добра идея да не се пробвате на текст, който съдържа много таблици. Необходима е регистрация.

Google Docs са обещали OCR услуга, но в момента не работи, иначе съм любопитен да я изпробвам.

This entry was posted in ... and tagged , , , . Bookmark the permalink. Post a comment or leave a trackback: Trackback URL.

Post a Comment

Your email is never published nor shared. Required fields are marked *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Spam protection by WP Captcha-Free

Switch to our mobile site