Конференция "Сети" » MSXML. Парсинг HTML.
 
  • Black Duck (10.03.14 13:03) [0]
    Всем доброго. Понадобилось побыстренькому прикрутить парсер XML к программе, обратил внимание на MSXML, как парсер.
    Теперь стала задача разобрать DOM HTML-ки.

    Вопрос 1: Умеет ли MSXML разбирать страницы сайта?

    В интернете ходят слухи что он подавится HTML-кой потому что там нет строгих правил как в XML, т.е. теги могут не закрываться.
    Кто что об этом думает?
    Сторонние парсеры мало интересуют, нужен стандартный для любой винды инструмент.

    Вопрос 2: Стоит ли использовать для таких случаев ActiveX IE? Если мне нужен только исходный код страницы, не начнет ли ишачок мне загружать все подряд что в странице прописано?
  • jack128_ (10.03.14 14:36) [1]

    > В интернете ходят слухи что он подавится HTML-кой потому
    > что там нет строгих правил как в XML, т.е. теги могут не
    > закрываться.

    правильно. html <> xml, поэтому парсить html xml-парсером невозможно.
  • Black Duck (10.03.14 18:06) [2]
    Хорошо. Какие будут предложения?
    И что на счет второго вопроса?
  • jack128_ (10.03.14 21:02) [3]

    > И что на счет второго вопроса?

    без понятия. я парсингом хтмля на дельфи не занимался.
  • Игорь Шевченко © (11.03.14 00:08) [4]

    > обратил внимание на MSXML


    обрати внимание на mshtml
    http://msdn.microsoft.com/en-us/library/bb508516(v=vs.85).aspx
 
Конференция "Сети" » MSXML. Парсинг HTML.
Есть новые Нет новых   [118573   +11][b:0][p:0]