Серверное распознавание вложений (сканов) - как?

anna

Lotus team
03.06.2014
400
7
#1
А подскажите, пожалуйста, на чем можно реализовать серверное распознавание вложений-сканов? сервер под винду. Или прикрутить что-нибудь внешнее?
 

ToxaRat

Чёрный маг
Lotus team
06.11.2007
3 231
18
#2
я прикручивал файнридер рекогнайзер сервер, подсовывал сервером ему файлы в папку и забирал из другой
всё одним агентом сделал
на винде
 

anna

Lotus team
03.06.2014
400
7
#3
я прикручивал файнридер рекогнайзер сервер, подсовывал сервером ему файлы в папку и забирал из другой
всё одним агентом сделал
на винде
Вот и я на этот же вариант смотрю. Может, даже агентом поделитесь? хотя, в принципе, ничего сложного....
 

lmike

нет, пердело совершенство
Lotus team
27.08.2008
6 586
272
#4
А подскажите, пожалуйста, на чем можно реализовать серверное распознавание вложений-сканов? сервер под винду. Или прикрутить что-нибудь внешнее?
какова цель и качество образов?

У нас используется (для ПУД) ФлэксиКэпча (но не в контексте LDN), распознавание сильно зависит от качества образов и шрифтов! (оценивали распечатанные накладные, вместе со спецами от ABBYY). Но там есть софт постобработки (ручной) если есть ошибки распознавания

Повторюсь - важна задача
можно обучить OpenCV
можно установить tesseract , для него нужно разрешение большое...

Другой эпизод "в жизни"
Была задача - распознать фотку (с текстом), ФР не справился (если коротко), плюнул и использовал
Для просмотра контента необходимо: Войти или зарегистрироваться
(подготовка образа) + tesseract.
Результатом остался доволен. Но это разовый случай
 

ToxaRat

Чёрный маг
Lotus team
06.11.2007
3 231
18
#5
Вот и я на этот же вариант смотрю. Может, даже агентом поделитесь? хотя, в принципе, ничего сложного....
не поделюсь, нету под рукой

там я много специфики добавлял, так как абби позволял ложить рядом с распознанным отдельный XML с кучей ключевой инфы

начните с простой файловой вертушки, ничего сложного

лучше это сделать в виде БД, в которую сбрасываются запросы на оригинальные доки в других БД
а агент из этой распознаёт, а потом подкладываеть к оригиналу как надо
 

anna

Lotus team
03.06.2014
400
7
#6
какова цель и качество образов?

У нас используется (для ПУД) ФлэксиКэпча (но не в контексте LDN), распознавание сильно зависит от качества образов и шрифтов! (оценивали распечатанные накладные, вместе со спецами от ABBYY). Но там есть софт постобработки (ручной) если есть ошибки распознавания

Повторюсь - важна задача
можно обучить OpenCV
можно установить tesseract , для него нужно разрешение большое...

Другой эпизод "в жизни"
Была задача - распознать фотку (с текстом), ФР не справился (если коротко), плюнул и использовал
Для просмотра контента необходимо: Войти или зарегистрироваться
(подготовка образа) + tesseract.
Результатом остался доволен. Но это разовый случай
В базах сканированные документы, факсы, качество очень разное - правильно распознать шансов, как мне кажется, никаких. Но у нас другая цель - поиск по подстроке (по фамилии). Чтобы подкидывало релевантные результаты и облегчало поиск документов.
 

lmike

нет, пердело совершенство
Lotus team
27.08.2008
6 586
272
#7
В базах сканированные документы, факсы, качество очень разное - правильно распознать шансов, как мне кажется, никаких. Но у нас другая цель - поиск по подстроке (по фамилии). Чтобы подкидывало релевантные результаты и облегчало поиск документов.
прогнать через связку, кот. указал выше, посмотреть результат
интеграция проста, ибо имеют cli
[doublepost=1512496540,1512482805][/doublepost]пример использования scantailor-cli:
Код:
scantailor-cli -l=1 --dpi=300 --rotate=-90 tmp/pdf/-000.tif tmp/
это страница лежащая набоку, dpi - это для примера (есть изображения где не указан), получаем образ в тифе, черно-белый в 600dpi (умолчание для тулзы, можно указать самому)
там еще много параметров...
увы --dewarping=auto не работает, с командной сроки - это выравнивание строк (очень крутая фича, когда образ завален с перспективой)
в ГУЕ работает и работает после настройки в проекте
т.е. можно
Код:
scantailor-cli test-LFK.ScanTailor out/
где первый параметр - имя проекта, второй - куда выводить файлы
на линухах еще есть cli для получения графики из ПДФ
Код:
pdfimages -tiff my.pdf out/
если страница не одна - все имеджи выложит в выходной каталог
[doublepost=1512497007][/doublepost]сам проект
Для просмотра контента необходимо: Войти или зарегистрироваться

судя по cmake (содержимому) собирается в винде под minGW
Для просмотра контента необходимо: Войти или зарегистрироваться

Для просмотра контента необходимо: Войти или зарегистрироваться

[doublepost=1512638082][/doublepost]пример (с кот. ФР13 не справился), выложу только скрины, исходный файл большой для зашгрузки, а тиф сюда не постится...
исходный
upload_2017-12-7_12-5-43.png
после скантейлора
upload_2017-12-7_12-7-30.png
ну и результат обработки tesseract -l rus+eng pdf/out/-000.tif ./
upload_2017-12-7_12-14-12.png
да, ошибки есть, но учитывая первоначальный образ - результат меня, лично, потряс
бесплатно, быстро, удобно :)
 
Последнее редактирование: