Аттачи: вытянуть информацию

wowa

Well-Known Member
01.02.2007
845
0
#1
Добрый день.

Мне нужно будет обработать с помощью LS значения из аттачментов письма.
Я обрабатывал *.doc и *.xls файлы.
Сейчас возможно ситуация обработки *.pdf и *.ppt
Что-то я не нашел решений как можно обработать эти файлы.
Подскажите кто что знает. И если это реализуемо, трудоемкое ли это дело?
 

hosm

* so what *
18.05.2009
2 442
9
#5
соррь, я как-то вот сразу java варианты предложила
http://dpastov.blogspot.com/2009/12/create...s-using-ls.html
Погуглить в сторону реализаций на VB (и адаптируйте под скрипт) или JAVA?
вот человек на пхп в презенташках копался, мне админ форумный давал ссылку - http://habrahabr.ru/blogs/php/76033/
т.е. у людей что-то получается. Там есть ссылки на спецификации формата.
 

lmike

нет, пердело совершенство
Lotus team
27.08.2008
6 483
360
#7
Цитата:

(OKEN @ 20:04:2010 - 16:22) *



это java. некошерно?)



Очень не желательно
давайте будем реалистами ;)
и перестанем изобретать велики
у ЛС есть три бриджа:
-СиАПИ
-джава
-КОМа
последний отпадает в случаях с "невиндой"
первый сложен как в реализации (тщательная выверка и сопоставление АПИ ф-ций и параметров), так и в отладке
т.о. остаётся 2-ой (или ничего)
вру - есть вариант - юзать вызов внешних утилит :)
 

lmike

нет, пердело совершенство
Lotus team
27.08.2008
6 483
360
#8

lmike

нет, пердело совершенство
Lotus team
27.08.2008
6 483
360
#10
стоит присмотреться (из списка OKEN )
http://pdfbox.apache.org/commandlineutilit...xtractText.html
работает как с командной строки, так и имеет АПИ
нужна жвм :)

Добавлено: про PPT...
под линухами есть пакет catdoc
он содержит мсо-киллеры для doc и ppt
соответ команды:
-catppt (вызовет ppt2text)
-catdoc