Получить весь текст внутри тега в lxml

Question

Получить весь текст внутри тега в lxml

Я хотел бы написать фрагмент кода, который захватил бы весь текст внутри тега <content>, в lxml, во всех трех случаях ниже, включая теги кода. Я пробовал tostring(getchildren()), но это будет пропускать текст между тегами. Мне не очень повезло с поиском соответствующей функции в API. Не могли бы вы мне помочь?

<!--1-->

<content>

<div>Text inside tag</div>

</content>

#should return "<div>Text inside tag</div>



<!--2-->

<content>

Text with no tag

</content>

#should return "Text with no tag"





<!--3-->

<content>

Text outside tag <div>Text inside tag</div>

</content>

#should return "Text outside tag <div>Text inside tag</div>"

708 14

python parsing

14 ответов:

Comments

Ничего не найдено.

albertov · Accepted Answer · 2011-01-09 01:24:39

Попробуйте:

def stringify_children(node):
    from lxml.etree import tostring
    from itertools import chain
    parts = ([node.text] +
            list(chain(*([c.text, tostring(c), c.tail] for c in node.getchildren()))) +
            [node.tail])
    # filter removes possible Nones in texts and tails
    return ''.join(filter(None, parts))

Пример:

from lxml import etree
node = etree.fromstring("""<content>
Text outside tag <div>Text <em>inside</em> tag</div>
</content>""")
stringify_children(node)

Производит: '\nText outside tag <div>Text <em>inside</em> tag</div>\n'

Ed Summers · Accepted Answer · 2014-05-09 23:49:23

Делает ли text_content () то, что вам нужно?

Arthur Debert · Accepted Answer · 2018-06-13 00:46:47

Просто используйте метод node.itertext(), как в:
 ''.join(node.itertext())

anana · Accepted Answer · 2018-01-23 13:22:06

Версия альбертова stringify-content , которая решает ошибки, сообщенные hoju:

def stringify_children(node):
    from lxml.etree import tostring
    from itertools import chain
    return ''.join(
        chunk for chunk in chain(
            (node.text,),
            chain(*((tostring(child, with_tail=False), child.tail) for child in node.getchildren())),
            (node.tail,)) if chunk)

Sandeep · Accepted Answer · 2016-06-27 14:46:57

Следующий фрагмент кода, использующий генераторы python, отлично работает и очень эффективен.

''.join(node.itertext()).strip()

d3day · Accepted Answer · 2012-08-20 23:11:47

import urllib2
from lxml import etree
url = 'some_url'
Получение url
test = urllib2.urlopen(url)
page = test.read()
Получение всего html-кода, включая табличный тег
tree = etree.HTML(page)
Селектор Xpath
table = tree.xpath("xpath_here")
res = etree.tostring(table)
Res-это html-код таблицы это была работа для меня.
Таким образом, вы можете извлечь содержимое тегов с помощью xpath_text() и тегов, включая их содержимое, используя tostring ()
div = tree.xpath("//div")
div_res = etree.tostring(div)
text = tree.xpath_text("//content") 
Или текст = дерево.xpath ("//content / text ()")
div_3 = tree.xpath("//content")
div_3_res = etree.tostring(div_3).strip('<content>').rstrip('</')
Эта последняя строка с использованием метода полосы не очень приятна, но она просто работает

Percival Ulysses · Accepted Answer · 2014-06-13 22:40:23

Определение stringify_children таким образом может быть менее сложным:
from lxml import etree

def stringify_children(node):
    s = node.text
    if s is None:
        s = ''
    for child in node:
        s += etree.tostring(child, encoding='unicode')
    return s
Или в одной строке
return (node.text if node.text is not None else '') + ''.join((etree.tostring(child, encoding='unicode') for child in node))
Обоснование такое же, как и вЭтот ответ : оставьте сериализацию дочерних узлов lxml. Часть tail node в данном случае не интересна, так как она находится "за" конечным тегом. Обратите внимание, что аргумент encoding может быть изменен в соответствии с вашими потребностями.

Другим возможным решением является сериализация самого узла, а затем удаление тега start и end прочь:
def stringify_children(node):
    s = etree.tostring(node, encoding='unicode', with_tail=False)
    return s[s.index(node.tag) + 1 + len(node.tag): s.rindex(node.tag) - 2]
Что несколько ужасно. Этот код корректен только в том случае, если node не имеет атрибутов, и я не думаю, что кто-то захочет использовать его даже тогда.

bwingenroth · Accepted Answer · 2013-04-30 19:18:44

В ответ на комментарий @Richard выше, если вы исправите stringify_children, чтобы прочитать:
 parts = ([node.text] +
--            list(chain(*([c.text, tostring(c), c.tail] for c in node.getchildren()))) +
++            list(chain(*([tostring(c)] for c in node.getchildren()))) +
           [node.tail])
Кажется, это позволяет избежать дублирования, о котором он говорит.

Joshmaker · Accepted Answer · 2015-09-09 01:22:27

Я знаю, что это старый вопрос, но это обычная проблема, и у меня есть решение, которое кажется проще, чем те, которые предлагались до сих пор:
def stringify_children(node):
    """Given a LXML tag, return contents as a string

       >>> html = "<p><strong>Sample sentence</strong> with tags.</p>"
       >>> node = lxml.html.fragment_fromstring(html)
       >>> extract_html_content(node)
       "<strong>Sample sentence</strong> with tags."
    """
    if node is None or (len(node) == 0 and not getattr(node, 'text', None)):
        return ""
    node.attrib.clear()
    opening_tag = len(node.tag) + 2
    closing_tag = -(len(node.tag) + 3)
    return lxml.html.tostring(node)[opening_tag:closing_tag]
В отличие от некоторых других ответов на этот вопрос, это решение сохраняет все теги, содержащиеся в нем, и атакует проблему под другим углом, чем другие рабочие решения.

Deepan Prabhu Babu · Accepted Answer · 2017-07-05 09:53:42

Один из простейших фрагментов кода, который на самом деле работал для меня и согласно документации в http://lxml.de/tutorial.html#using-xpath-to-find-text есть
etree.tostring(html, method="text")
Где etree-это узел / тег, полный текст которого вы пытаетесь прочитать. Обратите внимание,что он не избавляется от тегов скриптов и стилей.

sergzach · Accepted Answer · 2017-08-18 21:09:11

Вот рабочее решение. Мы можем получить контент с родительским тегом, а затем вырезать Родительский тег из вывода.
import re
from lxml import etree

def _tostr_with_tags(parent_element, html_entities=False):
    RE_CUT = r'^<([\w-]+)>(.*)</([\w-]+)>$' 
    content_with_parent = etree.tostring(parent_element)    

    def _replace_html_entities(s):
        RE_ENTITY = r'&#(\d+);'

        def repl(m):
            return unichr(int(m.group(1)))

        replaced = re.sub(RE_ENTITY, repl, s, flags=re.MULTILINE|re.UNICODE)

        return replaced

    if not html_entities:
        content_with_parent = _replace_html_entities(content_with_parent)

    content_with_parent = content_with_parent.strip() # remove 'white' characters on margins

    start_tag, content_without_parent, end_tag = re.findall(RE_CUT, content_with_parent, flags=re.UNICODE|re.MULTILINE|re.DOTALL)[0]

    if start_tag != end_tag:
        raise Exception('Start tag does not match to end tag while getting content with tags.')

    return content_without_parent
parent_element должен иметь тип Element.

Обратите внимание, , что если вы хотите текстовое содержимое (не HTML-объекты в тексте), пожалуйста, оставьте параметр html_entities как False.

Hrabal · Accepted Answer · 2017-10-08 11:36:10

У Lxml есть метод для этого:
node.text_content()

David · Accepted Answer · 2012-11-14 18:51:00

Если это тег a, вы можете попробовать:
node.values()

kazufusa · Accepted Answer · 2015-01-08 02:59:19

import re
from lxml import etree

node = etree.fromstring("""
<content>Text before inner tag
    <div>Text
        <em>inside</em>
        tag
    </div>
    Text after inner tag
</content>""")

print re.search("\A<[^<>]*>(.*)</[^<>]*>\Z", etree.tostring(node), re.DOTALL).group(1)