Был ли у кого-то опыт сбора данных с сайтов журналов?



Здравствуйте, коллеги! Был ли у кого-то опыт сбора данных с сайтов журналов (vogue.com, buro247.com, и т.д.)? Меня интересует сбор статей и их дат публикаций из определенной категории за последние 3 года. Уже пробовала newspaper библиотеку, не очень корректно работает: собирает ссылки и других доменов. Если сделать список из ссылок, то при скачивании на 600 ссылке библиотека ломается (time out). Буду благодарна за любую помощь! 🤓🥰
547   13  

Comments

  1. Сергей Шмаков
    Сергей Шмаков 4 года назад
    а макет сложный сайта? может обычным bs4 написсать парсер и собрать нужные данные https://pypi.org/project/beautifulsoup4/
    • Сергей Шмаков
      Сергей Шмаков 4 года назад
      по структуре контентные сайты смотрю в https://www.vogue.ru/sitemap.xml и там уже думаю что куда
    • Anastasia Pidkova
      Anastasia Pidkova 4 года назад
      Sergey Shmakov спасибо, не слишком, но у нас много разных сайтов и все там разное. хотела время урезать) спасибо за предложение! посижу попробую! да, сайтмап у них помогает !!
    • Costa Valdes
      Costa Valdes 4 года назад
      А робота не пробовали написать для парсинга? Задаете параметры, он Вам накачает материал и дальше можно beautifulsoup выбрать нужное или pandas. Мы так с разными гостендерами работаем.
    • Costa Valdes
      Costa Valdes 4 года назад
      Anastasia Pidkova обращайтесь, если что)
  2. Кирилл Маркин
    Кирилл Маркин 4 года назад
    Делал себе полный дамп нескольких изданий.
    • Кирилл Маркин
      Кирилл Маркин 4 года назад
      В рамках вот этой специализации надо было написать похожее:https://www.coursera.org/specializations/python
    • Anastasia Pidkova
      Anastasia Pidkova 4 года назад
      Кирилл Маркин спасибо за наводку! обязательно попробую!
  3. Дмитрий Тумайкин
    Дмитрий Тумайкин 4 года назад
    А какова исследовательская цель, поделитесь?
    • Anastasia Pidkova
      Anastasia Pidkova 4 года назад
      Dmitry Tumaykin смотрим brand co-creation by indie and legacy magazines ( semantic analysis, network analysis). Извините, на русском сложно описать, с формулировкой еще не закончили)
  4. Oleg Borisov
    Oleg Borisov 4 года назад
    Может так...
    • Anastasia Pidkova
      Anastasia Pidkova 4 года назад
      Oleg Borisov спасибо! сейчас попробую)
    • Anastasia Pidkova
      Anastasia Pidkova 4 года назад
      Oleg Borisov увидела!) спасибо)