PHP DM Gate v0.9 » парсинг Web [D7, WinXP]

voe (13.05.08 09:58) [0]

Есть такая вот конструкция:

<DIV id=11>
<DIV align=justify >НУЖНЫЙ МНЕ йТЕКСТ!</DIV>

Как мне получить из этого: НУЖНЫЙ МНЕ ТЕКСТ!
Все что у меня получилось это: НУЖНЫЙ МНЕй ТЕКСТ!

Как мне проигнорировать й ?
Данные вытаскиваю следующим образом:

var
HtmlDocument: IHtmlDocument2;
HtmlCollection: IHtmlElementCollection;
HtmlElement: IHtmlElement;
I: Integer;
SourceSave1: Textfile;
begin
AssignFile(SourceSave1,'c:\test2.txt');
ReWrite(SourceSave1); {Create a new file named ek.txt}
HtmlDocument := EmbeddedWB1.Document as IHtmlDocument2;
HtmlCollection := HtmlDocument.All;
for I := 0 to HtmlCollection.Length - 1 do begin
HtmlElement := HtmlCollection.Item(i, 0) as IHtmlElement;
if (HtmlElement.TagName='DIV') and (HtmlElement.ID='11') then
Writeln(SourceSave1, HtmlElement.innertext);
end;
Closefile(SourceSave1);

<Цитата>
clickmaker © (13.05.08 10:15) [1]

StringReplace или RegExp - первое, что приходит в голову

<Цитата>
sniknik © (13.05.08 10:30) [2]

> й
книжки с литреса тыришь?
правильно, експроприируй эксроприируемое! но гораздо проще скачать тот же текст с бесплатных библиотек, цельный и в открытом формате.

<Цитата>
palva © (13.05.08 10:30) [3]

> Есть такая вот конструкция:
Если конструкция всегда правильная с точки зрения XML, то помочь могут парсеры XML.

<Цитата>
Anatoly Podgoretsky © (13.05.08 10:32) [4]

> voe (13.05.2008 09:58:00) [0]

Трудновато, поскольку твои правила удаления и добавления пробелов не поддаются логике.

<Цитата>
voe (13.05.08 11:01) [5]

А как нибуть просто прочитать только текст из тега DIV нельзя?

<Цитата>
affonya (13.05.08 11:25) [6]

А почему не загрузишь в TreeView , а потом не поищешь по нему node.text ?

<Цитата>
voe (13.05.08 12:37) [7]

> правильно, експроприируй эксроприируемое! но гораздо проще
> скачать тот же текст с бесплатных библиотек, цельный и в
> открытом формате.

Как правильно?

> affonya (13.05.08 11:25) [6]
> А почему не загрузишь в TreeView , а потом не поищешь по
> нему node.text ?

Объемы большие + при загрузки в TreeView наверняки и текст из й тоже загрузится.

<Цитата>
voe (14.05.08 23:56) [8]

Никаких идей?

<Цитата>
sniknik © (15.05.08 08:41) [9]

уже высказаны 2 диаметрально противоположные идеи... 1 - скачать с другого места в готовом формате, 2 - парсить (/вырезать лишние теги) получаемый, только htm а не XML.
и в общем то да, других не предвидится... хотя нет, есть еще пара - 3 - найди готовую программу или, 4 - найми программиста.

идеи кончились, дело за реализацией.

> А почему не загрузишь в TreeView , а потом не поищешь по нему node.text ?
потому что у него не hml, а веб страничка, у которой в одном теге текст "разбавленный" лишними тегами (SPAN) со случайными буквами, которые делают его нечитаемым если копировать стандартно.

из его описания этого не понять, просто я както интересовался данным вопросом. в курсе в общем.

<Цитата>