долгое время не мог найти "нормального" инструмента (ОЛЕ не предлагать )...
НО вышел
он примечателен готовыми конверторами:
По реалиям - всё это лежит в либе poi-scratchpad-3.8-beta4-20110826.jar
и запущаеть можно строкой:
java -cp ./:./poi-3.8-beta4/poi-3.8-beta4-20110826.jar:./poi-3.8-beta4/poi-scratchpad-3.8-beta4-20110826.jar org.apache.poi.hwpf.converter.WordToHtmlConverter <input> <output>
с соответ. именем класса
результат, в хтмл, мне понравился (съехала нумерация булетов, на 1-цу, но не суть) - он визуально аккуратнее, чем при сохранении МСО2000 вордом
и самое "вкусное" - это fop преобразование, из класса org.apache.poi.hwpf.converter.WordToFoConvertor
приятно это тем, что можно получать PDF из вордфайла, без "посредников" (если не считать FOP и POI )
и в процесс можно вмешиваться, подставляя FOP-у шрифты/стили, заменяя элементы
д.р. словами - шаблонизация на основе ворд файлов, но с выводом в ПДФ!
стоит ли говорить, что всё это бохгасьво можно задейстовать в нотусне
НО вышел
Ссылка скрыта от гостей
он примечателен готовыми конверторами:
Word-to-HTML Converter, конвертирующий документ Word в HTML, можно даже с картинками;
Word-to-Text Converter, который является заменой для прошлого WordExtractor, корректно обрабатывающий вложенные OLE-документы, разбиение на абзацы, коды полей (в том числе гиперссылки);
Word-to-FO Converter, конвертирующий документ Word в файл XSL FO, также возможно с картинками. Дальше этот файл можно передать на обработку в Apache FOP для получения PDF из Word.
Ссылка скрыта от гостей
По реалиям - всё это лежит в либе poi-scratchpad-3.8-beta4-20110826.jar
и запущаеть можно строкой:
java -cp ./:./poi-3.8-beta4/poi-3.8-beta4-20110826.jar:./poi-3.8-beta4/poi-scratchpad-3.8-beta4-20110826.jar org.apache.poi.hwpf.converter.WordToHtmlConverter <input> <output>
с соответ. именем класса
результат, в хтмл, мне понравился (съехала нумерация булетов, на 1-цу, но не суть) - он визуально аккуратнее, чем при сохранении МСО2000 вордом
и самое "вкусное" - это fop преобразование, из класса org.apache.poi.hwpf.converter.WordToFoConvertor
приятно это тем, что можно получать PDF из вордфайла, без "посредников" (если не считать FOP и POI )
и в процесс можно вмешиваться, подставляя FOP-у шрифты/стили, заменяя элементы
д.р. словами - шаблонизация на основе ворд файлов, но с выводом в ПДФ!
стоит ли говорить, что всё это бохгасьво можно задейстовать в нотусне