php: синтаксический анализ строки из html

Question

php: синтаксический анализ строки из html

Я открыл HTML-файл с помощью

file_get_contents('http://www.example.com/file.html')

И хотите разобрать строку, включая "ParseThis":

 <h1 class="header">ParseThis</h1>

Как вы можете видеть, он находится в теге h1 (первый тег h1 из файла). Как я могу получить текст "ParseThis"?

642 3

PHP dom html parsing

3 ответов:

Comments

Ничего не найдено.

Gordon · Accepted Answer · 2017-05-23 14:45:39

Для этого можно использовать DOM.
// Load remote file, supress parse errors
libxml_use_internal_errors(TRUE);
$dom = new DOMDocument;
$dom->loadHTMLFile('http://www.example.com/file.html');
libxml_clear_errors();

// use XPath to find all nodes with a class attribute of header
$xp = new DOMXpath($dom);
$nodes = $xp->query('//h1[@class="header"]');

// output first item's content
echo $nodes->item(0)->nodeValue;
Также смотрите

Лучшие методы для разбора HTML

Еще примеры от меня с домом.

маркировка этого CW, потому что я ответил на этот вопрос раньше, но мне лень искать дубликат

shamittomar · Accepted Answer · 2010-08-28 20:19:38

Используйте эту функцию.

<?php
function get_string_between($string, $start, $end)
{
    $string = " ".$string;
    $ini = strpos($string,$start);
    if ($ini == 0)
        return "";
    $ini += strlen($start);
    $len = strpos($string,$end,$ini) - $ini;
    return substr($string,$ini,$len);
}

$data = file_get_contents('http://www.example.com/file.html');

echo get_string_between($data, '<h1 class=\"header\">', '<\/h1>');

karim79 · Accepted Answer · 2010-08-28 20:23:17

Поскольку это первый тег h1, его получение должно быть довольно тривиальным:
$doc = new DOMDocument();
$doc->loadHTML($html);
$h1 = $doc->getElementsByTagName('h1');
echo $h1->item(0)->nodeValue;
Http://php.net/manual/en/class.domdocument.php