Когда нужно получить html страницу и вытащить оттуда определенные данные, удобным решением оказывается библиотека simple_html_dom.
Синтаксис — почти как jQuery. Выборка по имени тега и классу элемента DOM:
foreach ($html->find('tr.vcard') as $article)
{
$item[] = array(
"mail" => $article->find('a.email', 0)->plaintext,
"name" => utf8win1251($article->find('td.fn', 0)->plaintext)
);
}
echo "<pre>", print_r($item)."</pre>";Библиотека позволяет обращаться к свойствам объекта для извлечения текста (plaintext) и легко работает в связке с cURL для скачивания страниц.
В комментариях читатели успешно использовали её для парсинга Yandex.Market и e-katalog.ru. Также предложена альтернатива — phpquery.
