Серверное распознавание вложений (сканов) - как?

A

anna

А подскажите, пожалуйста, на чем можно реализовать серверное распознавание вложений-сканов? сервер под винду. Или прикрутить что-нибудь внешнее?
 

ToxaRat

Чёрный маг
Green Team
06.11.2007
3 332
42
BIT
0
я прикручивал файнридер рекогнайзер сервер, подсовывал сервером ему файлы в папку и забирал из другой
всё одним агентом сделал
на винде
 
  • Нравится
Реакции: Vertigo и anna
A

anna

я прикручивал файнридер рекогнайзер сервер, подсовывал сервером ему файлы в папку и забирал из другой
всё одним агентом сделал
на винде
Вот и я на этот же вариант смотрю. Может, даже агентом поделитесь? хотя, в принципе, ничего сложного....
 

lmike

нет, пердело совершенство
Lotus Team
27.08.2008
7 981
611
BIT
438
А подскажите, пожалуйста, на чем можно реализовать серверное распознавание вложений-сканов? сервер под винду. Или прикрутить что-нибудь внешнее?
какова цель и качество образов?

У нас используется (для ПУД) ФлэксиКэпча (но не в контексте LDN), распознавание сильно зависит от качества образов и шрифтов! (оценивали распечатанные накладные, вместе со спецами от ABBYY). Но там есть софт постобработки (ручной) если есть ошибки распознавания

Повторюсь - важна задача
можно обучить OpenCV
можно установить tesseract , для него нужно разрешение большое...

Другой эпизод "в жизни"
Была задача - распознать фотку (с текстом), ФР не справился (если коротко), плюнул и использовал (подготовка образа) + tesseract.
Результатом остался доволен. Но это разовый случай
 
  • Нравится
Реакции: Vertigo и alexas1

ToxaRat

Чёрный маг
Green Team
06.11.2007
3 332
42
BIT
0
Вот и я на этот же вариант смотрю. Может, даже агентом поделитесь? хотя, в принципе, ничего сложного....
не поделюсь, нету под рукой

там я много специфики добавлял, так как абби позволял ложить рядом с распознанным отдельный XML с кучей ключевой инфы

начните с простой файловой вертушки, ничего сложного

лучше это сделать в виде БД, в которую сбрасываются запросы на оригинальные доки в других БД
а агент из этой распознаёт, а потом подкладываеть к оригиналу как надо
 
A

anna

какова цель и качество образов?

У нас используется (для ПУД) ФлэксиКэпча (но не в контексте LDN), распознавание сильно зависит от качества образов и шрифтов! (оценивали распечатанные накладные, вместе со спецами от ABBYY). Но там есть софт постобработки (ручной) если есть ошибки распознавания

Повторюсь - важна задача
можно обучить OpenCV
можно установить tesseract , для него нужно разрешение большое...

Другой эпизод "в жизни"
Была задача - распознать фотку (с текстом), ФР не справился (если коротко), плюнул и использовал (подготовка образа) + tesseract.
Результатом остался доволен. Но это разовый случай
В базах сканированные документы, факсы, качество очень разное - правильно распознать шансов, как мне кажется, никаких. Но у нас другая цель - поиск по подстроке (по фамилии). Чтобы подкидывало релевантные результаты и облегчало поиск документов.
 

lmike

нет, пердело совершенство
Lotus Team
27.08.2008
7 981
611
BIT
438
В базах сканированные документы, факсы, качество очень разное - правильно распознать шансов, как мне кажется, никаких. Но у нас другая цель - поиск по подстроке (по фамилии). Чтобы подкидывало релевантные результаты и облегчало поиск документов.
прогнать через связку, кот. указал выше, посмотреть результат
интеграция проста, ибо имеют cli
[doublepost=1512496540,1512482805][/doublepost]пример использования scantailor-cli:
Код:
scantailor-cli -l=1 --dpi=300 --rotate=-90 tmp/pdf/-000.tif tmp/
это страница лежащая набоку, dpi - это для примера (есть изображения где не указан), получаем образ в тифе, черно-белый в 600dpi (умолчание для тулзы, можно указать самому)
там еще много параметров...
увы --dewarping=auto не работает, с командной сроки - это выравнивание строк (очень крутая фича, когда образ завален с перспективой)
в ГУЕ работает и работает после настройки в проекте
т.е. можно
Код:
scantailor-cli test-LFK.ScanTailor out/
где первый параметр - имя проекта, второй - куда выводить файлы
на линухах еще есть cli для получения графики из ПДФ
Код:
pdfimages -tiff my.pdf out/
если страница не одна - все имеджи выложит в выходной каталог
[doublepost=1512497007][/doublepost]сам проект https://github.com/scantailor/scantailor/wiki
судя по cmake (содержимому) собирается в винде под minGW
https://github.com/scantailor/scantailor/blob/master/packaging/windows/readme.ru.txt
https://github.com/scantailor/scantailor/blob/master/README.md
[doublepost=1512638082][/doublepost]пример (с кот. ФР13 не справился), выложу только скрины, исходный файл большой для зашгрузки, а тиф сюда не постится...
исходный
upload_2017-12-7_12-5-43.png
после скантейлора
upload_2017-12-7_12-7-30.png
ну и результат обработки tesseract -l rus+eng pdf/out/-000.tif ./
upload_2017-12-7_12-14-12.png

да, ошибки есть, но учитывая первоначальный образ - результат меня, лично, потряс
бесплатно, быстро, удобно :)
 
Последнее редактирование:
  • Нравится
Реакции: alexas1 и Vertigo
Мы в соцсетях:

Обучение наступательной кибербезопасности в игровой форме. Начать игру!