text-extraction- все статьи тега ➜ страница 0
Каково состояние техники в извлечении HTML-контента?
Существует много научных работ по извлечению содержимого HTML, например, Gupta & Kaiser (2005) извлечение содержимого из доступных веб-страниц , и некоторые признаки интереса здесь, например, Один, два и Три, но мне не совсем ясно, насколько хорошо практика последнего отражает идеи первого. Какова наилучшая практика? Указатели на хорошие (в частности, с открытым исходным кодом) реализации и хорошие научные обзоры реализаций будь тем, кого я ищу. Постскриптум первый : если быть точным, т ...
Как извлечь строку по шаблону с помощью GREP, REGEX или PERL
У меня есть файл, который выглядит примерно так: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> Мне нужно извлечь что-нибудь в кавычках, которые следуют за "name=", т. е. content_analyzer , content_analyzer2 и content_analyzer_items. Я делаю это на ...