Как я могу разобрать HTML-страницу с узлом.js

Question

Как я могу разобрать HTML-страницу с узлом.js

Мне нужно разобрать (на стороне сервера) большое количество HTML-страниц.

Мы все согласны с тем, что регулярное выражение-это не путь сюда.

Мне кажется, что javascript является родным способом разбора HTML-страницы, но это предположение опирается на код на стороне сервера, имеющий все возможности DOM javascript внутри браузера.

Делает Узел.у js есть эта способность встроена?

Есть ли лучший подход к этой проблеме, разбор HTML на стороне сервера?

601 6

node.js html-parsing

6 ответов:

Comments

Ничего не найдено.

kzh · Accepted Answer · 2017-11-23 05:30:49

можно использовать npm модули jsdom и htmlparser для создания и анализа DOM в узле.JS.

другие варианты включают в себя:

BeautifulSoup для python

вы можете конвертировать вы html в xhtml и использовать XSLT

HTMLAgilityPack для .NET

CsQuery для .NET (мой новый любимый)

в двигатели spidermonkey и rhino JS имеют встроенную поддержку E4X. Это может быть полезно, только если вы преобразуете свой html в xhtml.

из всех этих вариантов, я предпочитаю использовать узел.опция js, потому что она использует стандартные методы доступа W3C DOM, и я могу повторно использовать код как на клиенте, так и на сервере. Я хочу, чтобы методы BeautifulSoup были более похожи на W3C dom, и я думаю, что преобразование вашего HTML в XHTML для записи XSLT просто садистское.

Meekohi · Accepted Answer · 2013-11-12 18:36:49

использовать Cheerio. Он не так строг, как jsdom и оптимизирован для соскабливания. В качестве бонуса, использует селекторы jQuery вы уже знаете.

❤ знакомый синтаксис: Cheerio реализует подмножество core jQuery. Привет удаляет все нестыковки дом и хлама браузера с помощью jQuery библиотека, раскрывая его по-настоящему великолепный интерфейс API.

Blaz невероятно быстро: Cheerio работает с очень простым, последовательным DOM модель. В результате парсинг, манипулирования и визуализации невероятно эффективный. Предварительные сквозные тесты показывают, что cheerio примерно в 8 раз быстрее, чем JSDOM.

Ins безумно гибкий: Cheerio оборачивается вокруг @ fb55 прощает htmlparser. Cheerio может анализировать практически любой HTML или XML документ.

Anderson Madeira · Accepted Answer · 2014-11-28 14:04:19

использовать htmlparser2, свой путь быстрее и довольно просто. Обратитесь к этому примеру использования:

https://www.npmjs.org/package/htmlparser2#usage

и демо здесь:

http://demos.forbeslindesay.co.uk/htmlparser2/

esp · Accepted Answer · 2013-04-20 21:09:13

Htmlparser2 по FB55, кажется, хорошая альтернатива.

Yarek T · Accepted Answer · 2013-08-24 14:40:12

jsdom слишком строг, чтобы делать какие-либо реальные скребки экрана, но beautifulsoup не задыхается от плохой разметки.

node-soupselect это порт beautifulsoup python в nodejs, и он прекрасно работает

josh3736 · Accepted Answer · 2011-09-10 19:36:46

в .NET, есть HTML Agility Pack, что является чрезвычайно прочной библиотекой синтаксического анализа HTML.