Что такое OCR технология

1 Июл 2016 | Автор: | Комментариев нет »

Многим пользователям персонального компьютера приходилось сталкиваться с ситуацией, когда нужно было что-то изменить в готовом документе, а его электронной версии не было, точнее сказать – отсутствовал редактируемый шаблон. При отсутствии сканера, или хотя бы устройства для создания снимка документа (мобильное устройство с камерой или цифровой фотоаппарат), приходилось перепечатывать в текстовом редакторе весь документ, параллельно внося нужные коррективы.

Однако, ситуация принимает совсем другой оборот, если есть возможность получить цифровую копию редактируемого документа. В данном случае на помощь приходит OCR технология, благодаря которой существуют программы для распознавания текста и даже определения таблиц или графических вставок на отсканированном листе. Больше информации про OCR технологию на http://matrixblog.ru/ocr-texnologiya/.

Технология OCR
Optical Character Recognition (оптическое распознавание символов) - это сервис или программа, которая может автоматически распознавать отсканированный (сфотографированный) текст и перевести его в электронный облик с последующим редактированием. Над программами OCR работают программисты уже с начала двадцатого века и происходит постоянное улучшение и снижение времени распознавания текста. Так же, как и другие области системы распознавания (звук, изображение) это очень трудно для восприятия, но интересно. В настоящее время, однако, мы уже можем говорить об очень надежной технологии, которая может сэкономить часы переписывания текста, а часто и его форматирование.

От чего зависит OCR?

Правильное распознавание печатных текстов зависит от нескольких факторов. Во-первых, фотография или сканированный текст должны быть качественными – при лучшем качестве объекта обработки, уменьшаются ошибки при распознавании похожих символов (m и n, л и п и так далее). Минимальное рекомендуемое разрешение -150 точек на дюйм, но этого не всегда достаточно.

  • Успех также зависит от размера пробелов между отдельными буквами. Если текст слишком уплотнённый, распознавание будет более сложным.
  • Ещё одна причина для плохого распознавания заключается в плохом контрасте – невыразительный текст на желтом или ином цветном фоне, будет ещё хуже узнаваемым.
  • Размытие фото является большой проблемой. Это явление происходит при отсутствии света или различной деформации сканируемого документа.

OCR программы

Конечно, существует довольно много программ для распознавания текста, наиболее известной является Adobe Fine Reader. Однако, можно ещё упомянуть про PDF-XChange Viewer, это один из немногих действительно качественных инструментов для распознавания текста. В первую очередь программа предназначена для просмотра и редактирования pdf-документов (детальней на http://matrixblog.ru), но в то же время, предлагает OCR функциональность. Программа предлагается в двух вариантах – бесплатная версия может распознавать только текст из формата pdf (сканированные файлы).

Здесь вы можете написать комментарий

* Обязательные для заполнения поля
Twitter-новости
Наши партнёры
Читать нас
Связаться с нами
Наши контакты

hardlod@gmail.com

О сайте

Все материалы на данном сайте взяты из открытых источников — имеют обратную ссылку на материал в интернете или присланы посетителями сайта и предоставляются исключительно в ознакомительных целях. Права на материалы принадлежат их владельцам. Администрация сайта ответственности за содержание материала не несет. Если Вы обнаружили на нашем сайте материалы, которые нарушают авторские права, принадлежащие Вам, Вашей компании или организации, пожалуйста, сообщите нам.