Серверное распознавание вложений (сканов) - как?

anna · 05.12.2017

А подскажите, пожалуйста, на чем можно реализовать серверное распознавание вложений-сканов? сервер под винду. Или прикрутить что-нибудь внешнее?

ToxaRat · 05.12.2017

я прикручивал файнридер рекогнайзер сервер, подсовывал сервером ему файлы в папку и забирал из другой
всё одним агентом сделал
на винде

anna · 05.12.2017

ToxaRat сказал(а):
я прикручивал файнридер рекогнайзер сервер, подсовывал сервером ему файлы в папку и забирал из другой
всё одним агентом сделал
на винде

Вот и я на этот же вариант смотрю. Может, даже агентом поделитесь? хотя, в принципе, ничего сложного....

lmike · 05.12.2017

anna сказал(а):
А подскажите, пожалуйста, на чем можно реализовать серверное распознавание вложений-сканов? сервер под винду. Или прикрутить что-нибудь внешнее?

какова цель и качество образов?

У нас используется (для ПУД) ФлэксиКэпча (но не в контексте LDN), распознавание сильно зависит от качества образов и шрифтов! (оценивали распечатанные накладные, вместе со спецами от ABBYY). Но там есть софт постобработки (ручной) если есть ошибки распознавания

Повторюсь - важна задача
можно обучить OpenCV
можно установить tesseract , для него нужно разрешение большое...

Другой эпизод "в жизни"
Была задача - распознать фотку (с текстом), ФР не справился (если коротко), плюнул и использовал

Ссылка скрыта от гостей

(подготовка образа) + tesseract.
Результатом остался доволен. Но это разовый случай

ToxaRat · 05.12.2017

anna сказал(а):
Вот и я на этот же вариант смотрю. Может, даже агентом поделитесь? хотя, в принципе, ничего сложного....

не поделюсь, нету под рукой

там я много специфики добавлял, так как абби позволял ложить рядом с распознанным отдельный XML с кучей ключевой инфы

начните с простой файловой вертушки, ничего сложного

лучше это сделать в виде БД, в которую сбрасываются запросы на оригинальные доки в других БД
а агент из этой распознаёт, а потом подкладываеть к оригиналу как надо

anna · 05.12.2017

lmike сказал(а):
какова цель и качество образов?

У нас используется (для ПУД) ФлэксиКэпча (но не в контексте LDN), распознавание сильно зависит от качества образов и шрифтов! (оценивали распечатанные накладные, вместе со спецами от ABBYY). Но там есть софт постобработки (ручной) если есть ошибки распознавания

Повторюсь - важна задача
можно обучить OpenCV
можно установить tesseract , для него нужно разрешение большое...

Другой эпизод "в жизни"
Была задача - распознать фотку (с текстом), ФР не справился (если коротко), плюнул и использовал
Ссылка скрыта от гостей
(подготовка образа) + tesseract.
Результатом остался доволен. Но это разовый случай

В базах сканированные документы, факсы, качество очень разное - правильно распознать шансов, как мне кажется, никаких. Но у нас другая цель - поиск по подстроке (по фамилии). Чтобы подкидывало релевантные результаты и облегчало поиск документов.

lmike · 07.12.2017

anna сказал(а):
В базах сканированные документы, факсы, качество очень разное - правильно распознать шансов, как мне кажется, никаких. Но у нас другая цель - поиск по подстроке (по фамилии). Чтобы подкидывало релевантные результаты и облегчало поиск документов.

прогнать через связку, кот. указал выше, посмотреть результат
интеграция проста, ибо имеют cli
[doublepost=1512496540,1512482805][/doublepost]пример использования scantailor-cli:

Код:

scantailor-cli -l=1 --dpi=300 --rotate=-90 tmp/pdf/-000.tif tmp/

это страница лежащая набоку, dpi - это для примера (есть изображения где не указан), получаем образ в тифе, черно-белый в 600dpi (умолчание для тулзы, можно указать самому)
там еще много параметров...
увы --dewarping=auto не работает, с командной сроки - это выравнивание строк (очень крутая фича, когда образ завален с перспективой)
в ГУЕ работает и работает после настройки в проекте
т.е. можно

Код:

scantailor-cli test-LFK.ScanTailor out/

где первый параметр - имя проекта, второй - куда выводить файлы
на линухах еще есть cli для получения графики из ПДФ

Код:

pdfimages -tiff my.pdf out/

если страница не одна - все имеджи выложит в выходной каталог
[doublepost=1512497007][/doublepost]сам проект https://github.com/scantailor/scantailor/wiki
судя по cmake (содержимому) собирается в винде под minGW
https://github.com/scantailor/scantailor/blob/master/packaging/windows/readme.ru.txt
https://github.com/scantailor/scantailor/blob/master/README.md
[doublepost=1512638082][/doublepost]пример (с кот. ФР13 не справился), выложу только скрины, исходный файл большой для зашгрузки, а тиф сюда не постится...
исходный

после скантейлора

ну и результат обработки tesseract -l rus+eng pdf/out/-000.tif ./

да, ошибки есть, но учитывая первоначальный образ - результат меня, лично, потряс
бесплатно, быстро, удобно

Все сервисы Codeby

Поиск

Поиск

Серверное распознавание вложений (сканов) - как?

anna

ToxaRat

Чёрный маг

anna

lmike

нет, пердело совершенство

ToxaRat

Чёрный маг

anna

lmike

нет, пердело совершенство