Константин Павлов



« | »

Бързо вадене на текст от сканиран документ

Процесът се нарича OCR (Optical Character Recognition) – „Оптично разчитане на символи“ и позволява от сканирани страници да се извади истински текст, който може да се публикува някъде, да се редактира с текстообработваща програма или офис пакет и т.н.

При българския език има и допълнителен проблем заради кирилицата.

Най-добрия софтуер за разчитане на кирилица е руски – ABBYY Fine Reader. Проблемът му е, че е платен, и то неприятно скъпо. А алтернатива с отворен код за кирилица все още не се е появила (или поне не такава, каквато може да се ползва лесно).

Радостното е, че има онлайн услуги, които предлагат разчитане, дори на текстове на кирилица.Това е страхотна идея, защото работата с такива софтуери не е лесна, не се намират веднага и обикновено се налага кракване, което пък води до инфекции и подобни неприятности.

Аз лично използвах преди малко OCR Online и съм доста доволен — справи се почти перфектно. Изглежда, че таблиците доста го объркват, така че може би е добра идея да не се пробвате на текст, който съдържа много таблици. Необходима е регистрация.

Google Docs са обещали OCR услуга, но в момента не работи, иначе съм любопитен да я изпробвам.

Публикувано от на 04/12/2010.

Tags: , , ,

Categories: ...

0 Responses

Leave a Reply

Spam protection by WP Captcha-Free

« | »




Скорошни публикации


Страници



About Константин Павлов

Това е моят професионален сайт. Тук публикувам интересни новини, мои коментари, съвети и всичко друго, което ми се струва важно от областта на интернет, медиите и технологиите. Абонирайте се за RSS емисията на сайта, става за секунди. Прочетете повече за мен и моята професионална биография. Мога да ви помогна с вашите интернет проекти. Тук ще намерите и контакти. Имам и личен блог.more →

Switch to our desktop site