Выдирание текста из продуктов MS Office

Тема в разделе "Delphi - СОМ", создана пользователем Barmutik, 3 ноя 2004.

  1. Barmutik

    Barmutik Гость

    Встала следующая проблема:

    Нужно выцепить текст из продуктов MS Office, в частности Word, Excel, PowerPoint.

    Это нужно сделать быстрым способом (без использования COM).

    Другими словами MS Office на компьютере может и не быть... Может у кого есть советы или примеры по этому поводу.

    Попытки сходу разобратсья пока не дали результатов. Попытки были в области StgOpenStorage, IStorage и т.д.

    Где можно почитать о форматах хранения их данных ?
     
  2. zubr

    zubr Гость

    Barmutik

    У меня есть инфа по формату файла .doc, правда для Word-97, если надо укажите куда отправить. А вообще, если мне не изменяет память, попробуйте ссылку http://sources.codenet.ru/index.php?cid=9&o=0&my=0 - там было много файловых форматов.
     
  3. Guest

    Guest Гость

    А тебя для какой программы? Если ты мне не конкурент, могу чего и подсказать.
     
  4. Barmutik

    Barmutik Гость

    Мне нужно для личных целей.. так что можно смело подсказывать ;)
     
  5. Guest

    Guest Гость

    Ну-ну. Ладно, тайна сия небольшая есть. У wordcnv.com есть конвертер doc>txt, в виде либы на 15К. Прямое чтение екселя я купил у автора excellence plugin for TC - он сделал на делфи чтение по спецификации (правда не 100%, но большинство), можно также в dll. А вот PowerPoint я еще не нашел.
     
  6. Guest

    Guest Гость

    Имеется в виду не нашел за небольшие деньги\в приемлимом виде. А так конвертеры есть - гугли.
     
  7. Barmutik

    Barmutik Гость

    Спасибо ... чего-то я в том роде колупаюсь .. но мне б с исходниками тогда б вообще цены не было б ...

    Пока разбираюсь только с Вордом, до остального пока руки не доходят ... накопал какой-то фришный конвертер, но он не использует структурированные хранилища.. он парсит просто бинарный файл с немерянно офигенным алгоритмом парсиния.. Но хотелось бы это делать правильным образом ...

    Чтение из Экселя с исходниками ? За сколько купил если не секрет ? И за сколько поделишся ? :)
     
  8. Guest

    Guest Гость

    Делится не буду - покупал для своей шароварной программы, не для перепродажи. Сколько платил, уж извини, тоже не скажу. Скажу только что немного, я думал будет больше. Платил через WU, парень из Словакии, что-ли, уже не помню. Свяжись с ним, пообщайся, может для тебя он вообще за так даст - для меня цена зависела от стоимости лицензии моей проги.
    А ты представляешь себе исходников сколько? И что ты будешь с ними делать? Скажем Doc-конвертер весь написан на асме, работает весьма шустро (файл в несколько мег за секунду), потому и размер 15К. Там тоже наш парень, пообщайся. В случае с екселем там около 50К чистого конверторного кода на делфи. Там проще, есть нормальная спецификация, некоторые вещи можно смотреть.
    Саппорт в обоих случаях тоже есть - по екселю мне он уже присылал обновления, у wordcnv вообще лучший саппорт, который я видел. Нашел файл, который не читается, послал ему, через 3 часа получил обновленную версию.
    Конечно, все зависит от задачи - если ты делаешь для себя, ковыряйся. У меня времени и так мало, так что я не могу себе позволить ковыряться в этом днями.
     
  9. ????

    ???? Гость

    Barmutik
    Если надо про Excel, посмотри ещё перловский модуль Spreadsheet::WriteExcel. Как там реализовано не знаю, но работает. Ссылка на исходник модуля - тынц.
     
  10. Barmutik

    Barmutik Гость

    Нашёл я парня с worldcnv... наш русский товарищ с SwRus...

    Ну и что хочеш сказать что 50К исходников это много ? Особенно если на Асме так это вообще ничего... Да меня в принципе на любом языке программирования устроит ...

    А более точный адрес парня из словакии скинуть можеш ? Не могу сказать что у меня много времени есть что б расколупывать форматы самому с нуля...
     
  11. Barmutik

    Barmutik Гость

    ????

    Спасибо .. но там с использованием OLE а мне надо без него ...
     
  12. Guest

    Guest Гость

    Ivan Petrovic, dark_one-at-verat.net
     
  13. Guest

    Guest Гость

    Кстати, отчечает он не быстро, у меня сложилось впечатление что у него доступ к сети раз в неделю, не больше. Имей в виду.
     
  14. Barmutik

    Barmutik Гость

    Спасибо попробую списаться, хочется надеяться что получится что-то...

    Пытаюсь сам вордовский формат разбирать ... тёмный лес :) Инфы мало... как-то всё НЕ получается :)
     
  15. Barmutik

    Barmutik Гость

    Если кому интересно .. то проблема решилась использованием интерфейса IFilter... в очередной раз убеждаюсь что нечего изобретать велосипед .. его уже изобрели до меня :) Нужно просто поискать то что нужно ...

    Выдирание текста из все продуктов MS Office .. а если ставить спец PDF фильтр то и из PDF тоже ...
     
  16. zubr

    zubr Гость

    В каком Unit у Delphi он реализован? Также вопрос, работает ли он в Win95-98?
     
  17. Barmutik

    Barmutik Гость

    Да вообщем-то нет его реализации в Delphi.. сами ручками

    По MSDN для него надо минимум NT...
     
  18. zubr

    zubr Гость

    М..да, хреновато :)
     
Загрузка...

Поделиться этой страницей