html-content-extraction- все статьи тега ➜ страница 0
Каково состояние техники в извлечении HTML-контента?
Существует много научных работ по извлечению содержимого HTML, например, Gupta & Kaiser (2005) извлечение содержимого из доступных веб-страниц , и некоторые признаки интереса здесь, например, Один, два и Три, но мне не совсем ясно, насколько хорошо практика последнего отражает идеи первого. Какова наилучшая практика? Указатели на хорошие (в частности, с открытым исходным кодом) реализации и хорошие научные обзоры реализаций будь тем, кого я ищу. Постскриптум первый : если быть точным, т ...
Извлечение текста из HTML файла с помощью Python
Я хотел бы извлечь текст из HTML-файла с помощью Python. Я хочу, по существу, тот же результат, который я получил бы, если бы скопировал текст из браузера и вставил его в блокнот. Я хотел бы что-то более надежное, чем использование регулярных выражений, которые могут потерпеть неудачу на плохо сформированном HTML. Я видел, что многие люди рекомендуют красивый суп, но у меня было несколько проблем с его использованием. Во-первых, он взял нежелательный текст, такой как источник JavaScript. ...
Как извлечь img src, title и alt из html с помощью php?
Я хотел бы создать страницу, где все изображения, которые находятся на моем сайте, перечислены с заголовком и альтернативным представлением. Я уже написал мне небольшую программу, чтобы найти и загрузить все HTML-файлы, но теперь я застрял на том, как извлечь src,title и alt из этого HTML: <img src="/image/fluffybunny.jpg" title="Harvey the bunny" alt="a cute little fluffy bunny" /> Я думаю, это должно быть сделано с некоторым регулярным выражением, но поскольку порядок тегов может отли ...