F
FreeUser
У меня такая проблема. Ребят, помогите кто сможет.
Задача: Есть документы формата MS Word 97-2003 (*.doc).
В каждый документ помещено несколько статей. Каждая статья отделена от предыдущей Заголовком. Задание: выяснить, сколько статей в каждом документе, и сохранить их каждую, в отдельный документ TXT. Названием для этого TXT должен стать заголовок статьи.
Пример:
Document1.doc
Произвольный заголовок 1
Произвольный текст статьи
Произвольный заголовок 2
Произвольный текст статьи
Результат работы программы:
1.Произвольный заголовок 1.txt
2.Произвольный заголовок 2.txt
Не знаю как и сделать. Т.е. были мысли сначала конвертить данный *.doc в html через компонент Word, а потом по тегам (компонент при конверте как я понял на экспериментах форматирование сохраняет) <p> и </p> вычлинять куски текста и сохранять. Но моих знаний тут не хватает.
Да, забыл. Есть еще там одно. Формат заголовка не известен. Т.е. может быть так:
Глава1. Заголовок главы1.
Параграф1. Заголовок параграфа1.
Текст Параграфа1.
Параграф2.Заголовок параграфа2.
Текст Параграфа1.
То есть в названия файлов помещается в данном случае не название главы, а название параграфа. Видимо тут надо считать количество символов между заголовками. Т.е. если например символов менее 500 (в моих документах нет менее 500, а если, есть то это аннотация главы, т.е. ее в любом случае необходимо игнорировать), то такой текст надо пропускать, до следующего заголовка.
Заранее благодарен за совет.
Задача: Есть документы формата MS Word 97-2003 (*.doc).
В каждый документ помещено несколько статей. Каждая статья отделена от предыдущей Заголовком. Задание: выяснить, сколько статей в каждом документе, и сохранить их каждую, в отдельный документ TXT. Названием для этого TXT должен стать заголовок статьи.
Пример:
Document1.doc
Произвольный заголовок 1
Произвольный текст статьи
Произвольный заголовок 2
Произвольный текст статьи
Результат работы программы:
1.Произвольный заголовок 1.txt
2.Произвольный заголовок 2.txt
Не знаю как и сделать. Т.е. были мысли сначала конвертить данный *.doc в html через компонент Word, а потом по тегам (компонент при конверте как я понял на экспериментах форматирование сохраняет) <p> и </p> вычлинять куски текста и сохранять. Но моих знаний тут не хватает.
Да, забыл. Есть еще там одно. Формат заголовка не известен. Т.е. может быть так:
Глава1. Заголовок главы1.
Параграф1. Заголовок параграфа1.
Текст Параграфа1.
Параграф2.Заголовок параграфа2.
Текст Параграфа1.
То есть в названия файлов помещается в данном случае не название главы, а название параграфа. Видимо тут надо считать количество символов между заголовками. Т.е. если например символов менее 500 (в моих документах нет менее 500, а если, есть то это аннотация главы, т.е. ее в любом случае необходимо игнорировать), то такой текст надо пропускать, до следующего заголовка.
Заранее благодарен за совет.