web-scraping- все статьи тега


вставка в excel с помощью python

Когда я вручную вставляю текст веб-сайта с таблицами в excel, таблицы сохраняют размещение и затенение ячеек. Попытка сделать то же самое с пакетами excel, такими как xlsxwriter, позволяет мне вставить весь текст в одну ячейку. Есть ли способ обойти это? ...

Python Selenium: получение динамического содержимого в iframe

Я пытаюсь соскрести доступные списки квартир со следующей веб-страницы: https://3160599v2.onlineleasing.realpage.com/ Я использую реализацию Selenium на Python, но до сих пор не нашел эффективного решения для программного получения контента. Мой самый простой код-это следующий, который в настоящее время просто возвращает нединамический исходный код HTML: from selenium import webdriver driver = webdriver.Chrome('/path_to_driver') driver.get('https://3160599v2.onlineleasing.realpage.com/') ht ...

Выскабливание и анализ результатов поиска Google с помощью Python

Я задал Вопрос О реализации общей идеи обхода и сохранения веб-страниц. Часть первоначального вопроса заключается в следующем: как сканировать и сохранять большое количество страниц "о компании" из интернета. С некоторыми дальнейшими исследованиями, я получил некоторые варианты, чтобы идти вперед как на выскабливание и разбор (перечислены в нижней части). Сегодня я столкнулся с другойдискуссией Ruby о том, как очистить Результаты поиска Google. Это обеспечивает отличную альтернативу для моей ...

Фильтрация HTML-элементов, которые имеют 'display:none' либо в качестве атрибута тега, либо в своем CSS

Допустим, у вас есть какой-то html-источник, который был очищен с помощью Selenium и проанализирован с помощью BeautifulSoup: from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Firefox() driver.get(url) soup = BeautifulSoup(driver.page_source) Есть ли способ удалить из html-кода или объекта soup все элементы, которые либо имеют: 1.) атрибут style=display:none в исходном html-теге (т. е. <div style = 'display:none'>...</div>) Или 2.) имеют свойст ...

Scrapy: оптимизация паука

Я пытаюсь уничтожить веб-сайт электронной коммерции, и я делаю это в 2 этапа. Этот сайт имеет такую структуру: на главной странице есть ссылки на страницы "семья-предметы" и "подсемейство-предметы" каждая страница семейства и подсемейства содержит список продуктов, разбитых на страницы Прямо сейчас у меня есть 2 паука: GeneralSpider чтобы получить ссылки на домашнюю страницу и сохранить их ItemSpider для получения элементов из каждого Страница Я совершенно новичок в Scrapy, я сл ...

Очистка данных с веб-сайта с помощью vba

Я пытаюсь соскрести данные с сайта: http://uk.investing.com/rates-bonds/financial-futures с помощью VBA, как и в режиме реального времени цены, т. е. немецкий 5 год бобло, нам 30-летние казначейские облигации, я пробовал в Excel веб-запрос, но это только царапины весь сайт, но я хотел бы, чтобы очистить уровень только, есть ли способ сделать это? ...

Очистка веб-данных (комментарии к новостям в интернете) с помощью Scrapy (Python)

Я хочу соскрести данные веб-комментариев из онлайн-новостей исключительно для исследования. И я заметила, что мне нужно узнать о Скрэпи... Обычно я программирую на Python. Я думал, что это будет легко узнать. Но у меня возникли некоторые проблемы. Я хочу наскрести комментарий к новостямhttp://news.yahoo.com/congress-wary--but-unlikely-to-blow-up-obama-s-iran-deal-230545228.html. Но проблема в том, что есть кнопка (>просмотреть комментарии (452)), чтобы увидеть комментарии. Кроме того, чт ...

Как я могу получить возраст кэша Google любого URL или веб-страницы? [закрытый]

в моем проекте мне нужно добавить возраст кэша Google в качестве важной информации. Я попытался найти источники для возраста кэша Google, то есть количество дней с момента последнего повторного индексирования Google указанной страницы. где я могу получить возраст кэша Google? ...

Как сохранить изображение локально с помощью Python, чей URL-адрес я уже знаю?

Я знаю URL-адрес изображения в Интернете. например http://www.digimouth.com/news/media/2011/09/google-logo.jpg, который содержит логотип Google. теперь, как я могу загрузить это изображение с помощью Python без фактического открытия URL-адреса в браузере и сохранения файла вручную. ...

Selenium-Python-значение раскрывающегося меню

мне нужно выбрать элемент из выпадающего меню. например, вот так: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> Так что сначала я должен нажать на него. Я делаю это: inputElementFruits = driver.find_element_by_xpath("//select["id='fruits']).click() (ок, это открытие меню) и после того, как я долж ...

Как использовать запросы Python для подделки посещения браузера?

Я хочу получить контент с сайта ниже. Если я использую браузер, такой как Firefox или Chrome, я могу получить реальную страницу сайта, которую я хочу, но если я использую пакет запросов Python (или wget command) чтобы получить его, он возвращает совершенно другую HTML-страницу. Я думал, что разработчик сайта сделал некоторые блоки для этого, так что вопрос: Как я могу поддельные посещения браузера с помощью запросов на языке Python или команду wget? http://www.ichangtou.com/#company:data_00000 ...

Java HTML Parsing [закрыто]

Я работаю над приложением, которое очищает данные с веб-сайта, и мне было интересно, как я должен получить данные. В частности, мне нужны данные, содержащиеся в ряде тегов div, которые используют определенный класс CSS-в настоящее время (для целей тестирования) я просто проверяю div class = "classname" в каждой строке HTML-кода - это работает, но я не могу помочь, но чувствую, что есть лучшее решение. есть ли хороший способ, где я мог бы дать классу строку HTML и иметь некоторые хорошие ...