Вы используете устаревший браузер. Этот и другие сайты могут отображаться в нем неправильно. Необходимо обновить браузер или попробовать использовать другой.
Познакомьтесь с пентестом веб-приложений на практике в нашем новом бесплатном курсе
У нас используется (для ПУД) ФлэксиКэпча (но не в контексте LDN), распознавание сильно зависит от качества образов и шрифтов! (оценивали распечатанные накладные, вместе со спецами от ABBYY). Но там есть софт постобработки (ручной) если есть ошибки распознавания
Повторюсь - важна задача
можно обучить OpenCV
можно установить tesseract , для него нужно разрешение большое...
Другой эпизод "в жизни"
Была задача - распознать фотку (с текстом), ФР не справился (если коротко), плюнул и использовал
Ссылка скрыта от гостей
(подготовка образа) + tesseract.
Результатом остался доволен. Но это разовый случай
там я много специфики добавлял, так как абби позволял ложить рядом с распознанным отдельный XML с кучей ключевой инфы
начните с простой файловой вертушки, ничего сложного
лучше это сделать в виде БД, в которую сбрасываются запросы на оригинальные доки в других БД
а агент из этой распознаёт, а потом подкладываеть к оригиналу как надо
У нас используется (для ПУД) ФлэксиКэпча (но не в контексте LDN), распознавание сильно зависит от качества образов и шрифтов! (оценивали распечатанные накладные, вместе со спецами от ABBYY). Но там есть софт постобработки (ручной) если есть ошибки распознавания
Повторюсь - важна задача
можно обучить OpenCV
можно установить tesseract , для него нужно разрешение большое...
Другой эпизод "в жизни"
Была задача - распознать фотку (с текстом), ФР не справился (если коротко), плюнул и использовал
Ссылка скрыта от гостей
(подготовка образа) + tesseract.
Результатом остался доволен. Но это разовый случай
В базах сканированные документы, факсы, качество очень разное - правильно распознать шансов, как мне кажется, никаких. Но у нас другая цель - поиск по подстроке (по фамилии). Чтобы подкидывало релевантные результаты и облегчало поиск документов.
В базах сканированные документы, факсы, качество очень разное - правильно распознать шансов, как мне кажется, никаких. Но у нас другая цель - поиск по подстроке (по фамилии). Чтобы подкидывало релевантные результаты и облегчало поиск документов.
прогнать через связку, кот. указал выше, посмотреть результат
интеграция проста, ибо имеют cli
[doublepost=1512496540,1512482805][/doublepost]пример использования scantailor-cli:
это страница лежащая набоку, dpi - это для примера (есть изображения где не указан), получаем образ в тифе, черно-белый в 600dpi (умолчание для тулзы, можно указать самому)
там еще много параметров...
увы --dewarping=auto не работает, с командной сроки - это выравнивание строк (очень крутая фича, когда образ завален с перспективой)
в ГУЕ работает и работает после настройки в проекте
т.е. можно
Код:
scantailor-cli test-LFK.ScanTailor out/
где первый параметр - имя проекта, второй - куда выводить файлы
на линухах еще есть cli для получения графики из ПДФ
На данном сайте используются cookie-файлы, чтобы персонализировать контент и сохранить Ваш вход в систему, если Вы зарегистрируетесь.
Продолжая использовать этот сайт, Вы соглашаетесь на использование наших cookie-файлов.