парсинг Html странички на Asp.

labas · 26.11.2008

Стоит задача:

1,парсинг страницы хххх.html
2, распечатать из нее таблицу <table id="ууу">. Естественно в хххх.html есть много других таблиц, текста и другого мусора.

Помогите разобраться плз!
....... или хотя бы подскажите каким путем это лучше реализовывать :о(

HTML переводить в XML-файл и из них тянуть инфу?...а если парсинг каждый день несколько раз делать надо будет?
Или сохранить текст из файла в ...куда?..... стринг? масив? или еще куда то?
......а может можно ""на лету обрабатывать, без сохранения файла?

etc · 26.11.2008

Регулярные вырвжения должны помочь.

Kmet · 26.11.2008

для явы есть куча парсеров которые позволяют работать с html как с xml. поищите анологи для дотнета.
регулярные выражения всме хороши, вот только кривая обучения ну очень крутая=)

etc · 26.11.2008

Kmet сказал(а):
вот только кривая обучения ну очень крутая=)

Это да, но есть куча тулзов, которые помогают.

labas · 26.11.2008

то, что с регулярными выражениями придется разбираться уже вижу.

а что с кривой обучения?.......На первый взгляд там ничего особенно сложного нет.........или это только на первый взгляд?

etc · 26.11.2008

Все относительно.

LuMee · 27.11.2008

Делал похожую задачу следующим образом. На просторах инета попадается такая либа как SgmlReaderDll.dll. В ней содержится полезный класс SgmlReader, с помощью которого можно перегонять HTML в XHTML примерно таким путем:

Код:

string inputHtml = ...; // HTML-код распарсиваемой странички

SgmlReader reader = new SgmlReader();
reader.DocType = "HTML";
reader.InputStream = new StringReader(inputHtml);

StringWriter sw = new StringWriter();
XmlTextWriter w = new XmlTextWriter(sw);

reader.Read();
while (!reader.EOF)
{
w.WriteNode(reader, true);
}

w.Flush();
w.Close();

string xhtml = sw.ToString(); // получили XHTML

Далее остается этот XHTML подвергнуть XSLT-преобразованию, которое и выдернет нужную табличку. Сам XSLT можно вынести в какие-нибудь внешние ресурсы/настройки и править в случае изменения структуры анализируемой странички.
Составить XSLT, который просто найдет и выдернет элемент table с определенным id, - задача не слишком сложная, я думаю. Работает сие достаточно шустро (на загрузку странички, во всяк, времени уходило больше).

etc · 27.11.2008

LuMee Даже если пойти этим путем, то непонятно зачем XSLT-преобразованию ... xpath нормально должен справится ...

LuMee · 27.11.2008

etc сказал(а):
LuMee Даже если пойти этим путем, то непонятно зачем XSLT-преобразованию ... xpath нормально должен справится ...

Ну в принципе да. У меня там просто посложнее обработка делалась малясь. В данном случае XPath'а хватить должно.

labas · 27.11.2008

LuMee , за код спасибо..а можно совсем разжевать куда его кидать, как подвергать XSLT-преобразованию и выводить таблицу?

Знаю, что вопросы дурацкие, но никогда с этим не пересекалась :о( а одновременно разбираться с несколькими вещами - дело долгое :о/

LuMee · 28.11.2008

XSLT, как уже выяснили, не нужен, можно продолжить приведенный мною выше фрагмент так:

Код:

XmlDocument xmlDoc = new XmlDocument();
xmlDoc.LoadXml(xhtml);
XmlNode node = xmlDoc.SelectSingleNode("descendant::table[@id='yyy']");

Теперь в node содержится узел, соответствующий искомой таблице. Если нужно вывести это добро, скажем, в консоль, то можно сделать так:

Код:

XmlTextWriter writer = new XmlTextWriter(Console.Out);
writer.Formatting = Formatting.Indented;
node.WriteTo(writer);

Поиск

Поиск

парсинг Html странички на Asp.

labas

etc

Kmet

Newbie

etc

labas

etc

LuMee

etc

LuMee

labas

LuMee

Похожие темы

Популярный контент

HackerLab

Экосистема Codeby

HackerLab

Forum Codeby

Codeby Academy