Выдирание текста из продуктов MS Office

  • Автор темы Barmutik
  • Дата начала
B

Barmutik

#1
Встала следующая проблема:

Нужно выцепить текст из продуктов MS Office, в частности Word, Excel, PowerPoint.

Это нужно сделать быстрым способом (без использования COM).

Другими словами MS Office на компьютере может и не быть... Может у кого есть советы или примеры по этому поводу.

Попытки сходу разобратсья пока не дали результатов. Попытки были в области StgOpenStorage, IStorage и т.д.

Где можно почитать о форматах хранения их данных ?
 
Z

zubr

#2
Barmutik

У меня есть инфа по формату файла .doc, правда для Word-97, если надо укажите куда отправить. А вообще, если мне не изменяет память, попробуйте ссылку http://sources.codenet.ru/index.php?cid=9&o=0&my=0 - там было много файловых форматов.
 
G

Guest

#3
А тебя для какой программы? Если ты мне не конкурент, могу чего и подсказать.
 
G

Guest

#5
Мне нужно для личных целей.. так что можно смело подсказывать ;)
Ну-ну. Ладно, тайна сия небольшая есть. У wordcnv.com есть конвертер doc>txt, в виде либы на 15К. Прямое чтение екселя я купил у автора excellence plugin for TC - он сделал на делфи чтение по спецификации (правда не 100%, но большинство), можно также в dll. А вот PowerPoint я еще не нашел.
 
B

Barmutik

#7
Спасибо ... чего-то я в том роде колупаюсь .. но мне б с исходниками тогда б вообще цены не было б ...

Пока разбираюсь только с Вордом, до остального пока руки не доходят ... накопал какой-то фришный конвертер, но он не использует структурированные хранилища.. он парсит просто бинарный файл с немерянно офигенным алгоритмом парсиния.. Но хотелось бы это делать правильным образом ...

Чтение из Экселя с исходниками ? За сколько купил если не секрет ? И за сколько поделишся ? :)
 
G

Guest

#8
Делится не буду - покупал для своей шароварной программы, не для перепродажи. Сколько платил, уж извини, тоже не скажу. Скажу только что немного, я думал будет больше. Платил через WU, парень из Словакии, что-ли, уже не помню. Свяжись с ним, пообщайся, может для тебя он вообще за так даст - для меня цена зависела от стоимости лицензии моей проги.
А ты представляешь себе исходников сколько? И что ты будешь с ними делать? Скажем Doc-конвертер весь написан на асме, работает весьма шустро (файл в несколько мег за секунду), потому и размер 15К. Там тоже наш парень, пообщайся. В случае с екселем там около 50К чистого конверторного кода на делфи. Там проще, есть нормальная спецификация, некоторые вещи можно смотреть.
Саппорт в обоих случаях тоже есть - по екселю мне он уже присылал обновления, у wordcnv вообще лучший саппорт, который я видел. Нашел файл, который не читается, послал ему, через 3 часа получил обновленную версию.
Конечно, все зависит от задачи - если ты делаешь для себя, ковыряйся. У меня времени и так мало, так что я не могу себе позволить ковыряться в этом днями.
 
?

????

#9
Barmutik
Если надо про Excel, посмотри ещё перловский модуль Spreadsheet::WriteExcel. Как там реализовано не знаю, но работает. Ссылка на исходник модуля - тынц.
 
B

Barmutik

#10
Нашёл я парня с worldcnv... наш русский товарищ с SwRus...

Ну и что хочеш сказать что 50К исходников это много ? Особенно если на Асме так это вообще ничего... Да меня в принципе на любом языке программирования устроит ...

А более точный адрес парня из словакии скинуть можеш ? Не могу сказать что у меня много времени есть что б расколупывать форматы самому с нуля...
 
B

Barmutik

#11
????

Спасибо .. но там с использованием OLE а мне надо без него ...
 
G

Guest

#13
Кстати, отчечает он не быстро, у меня сложилось впечатление что у него доступ к сети раз в неделю, не больше. Имей в виду.
 
B

Barmutik

#14
Спасибо попробую списаться, хочется надеяться что получится что-то...

Пытаюсь сам вордовский формат разбирать ... тёмный лес :) Инфы мало... как-то всё НЕ получается :)
 
B

Barmutik

#17
Если кому интересно .. то проблема решилась использованием интерфейса IFilter... в очередной раз убеждаюсь что нечего изобретать велосипед .. его уже изобрели до меня :) Нужно просто поискать то что нужно ...

Выдирание текста из все продуктов MS Office .. а если ставить спец PDF фильтр то и из PDF тоже ...
 
B

Barmutik

#19
Да вообщем-то нет его реализации в Delphi.. сами ручками

По MSDN для него надо минимум NT...