html-parsing- все статьи тега


Почему именно на стороне сервера визуализации HTML быстрее, чем на стороне клиента?

Я работаю над большим веб-сайтом,и мы перемещаем большую функциональность на клиентскую сторону (Require.js, позвоночник и руль стека). Есть даже дискуссии о возможном перемещении всего рендеринга на клиентскую сторону. Но читая некоторые статьи, особенно о том, что Twitter уходит от рендеринга на стороне клиента, в которых упоминается, что серверная сторона быстрее / надежнее, у меня начинают возникать вопросы. Я не понимаю, как рендеринг довольно простых HTML виджетов в JS из JSON and templa ...

Ошибки проверки (например, "Stray start tag html"), которые я, кажется, не могу стряхнуть с заголовка.РНР

Запуск проверки и получение нескольких ошибок. f<!DOCTYPE html>↩ <!--[if IE 8 ]><html class="ie ie8 no-js" lang="en-US" prefix="og: http://ogp.me/ns#"> <![endif]-->↩ <!--[if (gte IE 9)|!(IE)]><!--><html class="no-js" lang="en-US" prefix="og: http://ogp.me/ns#"> <!--<![endif]-->↩ <head>↩ Я попытался сохранить заголовок.php as (UTF-8, без BOM), но я не могу, кажется, встряхнуть не-пробел ('f') в начале. Вот код PHP: & ...

HTML5: W3C против WHATWG. Что дает наиболее авторитетные спецификации?

Я нахожусь на полпути через HTML-парсер и нашел html5, определяющийявно эмпирические правила для разбораплохо сформированного html . (и я привык выводить их из DTDs, вздыхаю) Мне нравится этот факт, но я хорошо знаю, что html5 еще не завершен (и мне интересно, будет ли он когда-нибудь) и что он разрабатывается не W3C, а WHATWG. В поисках нужной мне спецификации я получил: 8.2 секция W3C трhttp://www.w3.org/TR/html5/syntax.html#parsing Или 11.2 раздел WHATWG web-apps/current-workht ...

Как вы анализируете и обрабатываете HTML / XML в PHP?

Как можно разобрать HTML/XML и извлечь из него информацию? ...

Использование регулярных выражений для анализа HTML: почему бы и нет?

похоже, что каждый вопрос о stackoverflow, где asker использует регулярное выражение для захвата некоторой информации из HTML, неизбежно будет иметь "ответ", который говорит, что не следует использовать регулярное выражение для разбора HTML. Почему бы и нет? Я знаю, что есть цитата-unquote "реальные" Парсеры HTML там, как Красивый Суп, и я уверен, что они мощные и полезные, но если вы просто делаете что-то простое, быстрое или грязное, то зачем использовать что-то настолько сложное, когда неско ...

Разбор HTML-строки с помощью JS

Я искал решение, но ничего не было уместно, так что вот моя проблема: Я хочу разобрать строку, которая содержит текст HTML. Я хочу сделать это в JavaScript. пробовал библиотека но кажется, что он анализирует HTML-код моей текущей страницы, а не из строки. Потому что когда я пробую код ниже, он меняет название моей страницы: var parser = new HTMLtoDOM("<html><head><title>titleTest</title></head><body><a href='test0'>test01</a><a href='test1'&g ...

Как извлечь img src, title и alt из html с помощью php?

Я хотел бы создать страницу, где все изображения, которые находятся на моем сайте, перечислены с заголовком и альтернативным представлением. Я уже написал мне небольшую программу, чтобы найти и загрузить все HTML-файлы, но теперь я застрял на том, как извлечь src,title и alt из этого HTML: <img src="/image/fluffybunny.jpg" title="Harvey the bunny" alt="a cute little fluffy bunny" /> Я думаю, это должно быть сделано с некоторым регулярным выражением, но поскольку порядок тегов может отли ...

Разбор HTML с помощью Python

Я ищу модуль синтаксического анализа HTML для Python, который может помочь мне получить теги в виде списков/словарей/объектов Python. если у меня документ вида: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something here</div> <div>Something else</div> </div> </body> </html> тогда он должен дать мне способ доступа к вложенным тегам через имя или идентифик ...

Как нормализовать HTML в JavaScript или jQuery?

теги могут иметь несколько атрибутов. Порядок отображения атрибутов в коде не имеет значения. Например: <a href="#" title="#"> <a title="#" href="#"> как я могу "нормализовать" HTML в Javascript, поэтому порядок атрибутов всегда один и тот же? Мне все равно, какой порядок выбран, если он всегда один и тот же. обновление: моя первоначальная цель состояла в том, чтобы облегчить diff (в JavaScript) 2 HTML-страницы с небольшими различиями. Потому что пользователи могут использовать ...

Как я могу разобрать HTML-страницу с узлом.js

Мне нужно разобрать (на стороне сервера) большое количество HTML-страниц. Мы все согласны с тем, что регулярное выражение-это не путь сюда. Мне кажется, что javascript является родным способом разбора HTML-страницы, но это предположение опирается на код на стороне сервера, имеющий все возможности DOM javascript внутри браузера. Делает Узел.у js есть эта способность встроена? Есть ли лучший подход к этой проблеме, разбор HTML на стороне сервера? ...

Как извлечь строку по шаблону с помощью GREP, REGEX или PERL

У меня есть файл, который выглядит примерно так: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> Мне нужно извлечь что-нибудь в кавычках, которые следуют за "name=", т. е. content_analyzer , content_analyzer2 и content_analyzer_items. Я делаю это на ...

Разбор HTML в python-lxml или BeautifulSoup? Какой из них лучше для каких целей?

из того, что я могу разобрать, две основные библиотеки синтаксического анализа HTML в Python-это lxml и BeautifulSoup. Я выбрал BeautifulSoup для проекта, над которым я работаю, но я выбрал его без особых причин, кроме как найти синтаксис немного легче учиться и понимать. Но я вижу, что многие люди, похоже, предпочитают lxml, и я слышал, что lxml быстрее. поэтому мне интересно, каковы преимущества одного над другим? Когда я хочу использовать lxml и когда я буду лучше с помощью BeautifulSoup? Ес ...