Красивый суп и извлечение div и его содержимое по ID

Question

Красивый суп и извлечение div и его содержимое по ID

soup.find("tagName", { "id" : "articlebody" })

Почему это не возвращает <div id="articlebody"> ... </div> теги и прочее между ними? Он ничего не возвращает. И я точно знаю, что он существует, потому что я смотрю прямо на него из

soup.prettify()

soup.find("div", { "id" : "articlebody" }) тоже не работает.

Edit: нет ответа на этот пост - Как удалить его? Я обнаружил, что BeautifulSoup не разбирает правильно, что, вероятно, на самом деле означает, что страница, которую я пытаюсь разобрать, неправильно отформатирована в SGML или что-то еще.

426 10

python

10 ответов:

Comments

Ничего не найдено.

Lukáš Lalinský · Accepted Answer · 2010-01-26 01:02:11

вы должны опубликовать свой пример документа, потому что код работает нормально:
>>> import BeautifulSoup
>>> soup = BeautifulSoup.BeautifulSoup('<html><body><div id="articlebody"> ... </div></body></html')
>>> soup.find("div", {"id": "articlebody"})
<div id="articlebody"> ... </div>
найти <div>внутри <div>s работает также:
>>> soup = BeautifulSoup.BeautifulSoup('<html><body><div><div id="articlebody"> ... </div></div></body></html')
>>> soup.find("div", {"id": "articlebody"})
<div id="articlebody"> ... </div>

jfs · Accepted Answer · 2014-03-14 18:17:10

найти элемент по его id:
div = soup.find(id="articlebody")

omar · Accepted Answer · 2010-03-04 05:34:24

Я думаю, что есть проблема, когда теги' div ' слишком много вложенных. Я пытаюсь разобрать некоторые контакты из html-файла facebook, и Beautifulsoup не может найти теги "div" с классом "fcontent".

это происходит и с другими классами. Когда я ищу divs вообще, получается только те, которые не так сильно вложены.

исходным кодом html может быть любая страница из facebook списка друзей вашего друга (не одного из ваших друзей). Если кто-то может проверить его и дать несколько советов, я был бы очень признателен.

Это мой код, где я просто пытаюсь напечатать количество тегов " div "с классом "fcontent":
from BeautifulSoup import BeautifulSoup 
f = open('/Users/myUserName/Desktop/contacts.html')
soup = BeautifulSoup(f) 
list = soup.findAll('div', attrs={'class':'fcontent'})
print len(list)

liang · Accepted Answer · 2013-01-29 18:20:48

скорее всего, из-за по умолчанию beautifulsoup парсер имеет проблемы. Измените другой парсер, например "lxml", и повторите попытку.

Josh Crozier · Accepted Answer · 2017-02-20 07:50:27

красивый суп 4 поддерживает большинство селекторы CSS С .select() метод, поэтому вы можете использовать id селектор, например:
soup.select('#articlebody')
если нужно указать тип элемента, вы можете добавить выбор типа до id селектор:
soup.select('div#articlebody')
The .select() метод вернет коллекцию элементов, что означает, что он будет возвращать те же результаты, что и следующие .find_all() метод пример:
soup.find_all('div', id="articlebody")
# or
soup.find_all(id="articlebody")
если вы хотите выбрать только один элемент, то вы могли бы просто использовать .find() метод:
soup.find('div', id="articlebody")
# or
soup.find(id="articlebody")

dagoof · Accepted Answer · 2010-01-26 01:14:20

в источнике beautifulsoup эта строка позволяет divs быть вложенными в divs; поэтому ваше беспокойство в комментарии Лукаса было бы недействительным.
NESTABLE_BLOCK_TAGS = ['blockquote', 'div', 'fieldset', 'ins', 'del']
то, что я думаю, что вам нужно сделать, это указать attrs, которые вы хотите, такие как
source.find('div', attrs={'id':'articlebody'})

user106514 · Accepted Answer · 2010-01-26 01:00:55

ты пробовал soup.findAll("div", {"id": "articlebody"})?

звучит безумно, но если вы соскабливаете материал из дикой природы, вы не можете исключить несколько дивов...

score 3 · Accepted Answer · 2010-01-26 01:02:37

Я:
soup.findAll('tag', attrs={'attrname':"attrvalue"})
как мой синтаксис для find / findall; тем не менее, если между тегом и списком атрибутов нет других необязательных параметров, это не должно отличаться.

Shoham · Accepted Answer · 2015-04-30 08:34:56

случилось со мной также при попытке очистить Google.
Я закончил тем, что использовал pyquery.
Установить:
pip install pyquery
использование:
from pyquery import PyQuery    
pq = PyQuery('<html><body><div id="articlebody"> ... </div></body></html')
tag = pq('div#articlebody')

Recursion · Accepted Answer · 2010-01-26 01:03:03

вот фрагмент кода
soup = BeautifulSoup(:"index.html")
titleList = soup.findAll('title')
divList = soup.findAll('div', attrs={ "class" : "article story"})
Как вы можете видеть, я нахожу все теги, а затем я нахожу все теги с class= "article" внутри