Парсинг российских СМИ

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Парсинг российских СМИ

23.07.2025 06:16:34 | Хабр

Хабы: Python, Data Mining, Открытые данные, Веб-аналитика

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг.

В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта. Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium.

Читать далее

Подробнее

Читайте также

Базовый Python для аналитика данных: подборка для самостоятельного обучения
23.07.2025 06:15:31 | Хабр

Провели редизайн касс самообслуживания: от концепции к дизайну, или почему итоговый дизайн так не похож на прототип
23.07.2025 06:08:27 | Хабр

Как успешно пережить периоды пиковой нагрузки во время трансформации
23.07.2025 06:02:25 | Хабр

Как рассчитать недельный бюджет и не помешать обучению автоматической стратегии в Яндекс Директе
23.07.2025 05:39:34 | Хабр

[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик
23.07.2025 05:36:17 | Хабр

Отрицание, гнев, торг, депрессия, третий номер FPGA журнала
23.07.2025 05:20:07 | Хабр

Про esModuleInterop и совместимость модулей ES6 и CommonJS
23.07.2025 05:15:12 | Хабр

Один грохот против ста проблем: как точечная модернизация спасает фабрику
23.07.2025 04:38:07 | Хабр

IDE для COBOL на Delphi — часть 2: GMP, улучшенная отладка и подсветка
23.07.2025 04:00:34 | Хабр

Модели ИИ от Google и OpenAI получили золото на олимпиаде по математике
22.07.2025 23:15:18 | ferra.ru

Проект Stargate от OpenAI и SoftBank начнётся с малого дата-центра
22.07.2025 22:30:19 | ferra.ru

Российские учёные создали «прозрачный» детектор текстов ИИ
22.07.2025 22:19:48 | ferra.ru

OnePlus 15 и Ace 6 представят вместе уже в октябре 2025 года
22.07.2025 22:11:19 | ferra.ru

В России приняли закон о блокировке SIM-карт при аресте счетов абонента
22.07.2025 22:06:50 | ferra.ru

«Т-Технологии» открыли доступ к модели распознавания речи
22.07.2025 22:02:15 | ferra.ru

Великобритания и OpenAI подписали стратегическое соглашение по развитию ИИ
22.07.2025 21:45:19 | ferra.ru

В России создали грузовой дрон для труднодоступных районов
22.07.2025 21:29:46 | ferra.ru

Глава NVIDIA стал новым посредником между США и Китаем вместо Маска
22.07.2025 21:22:15 | ferra.ru

Учёные объяснили, почему человек лучше ИИ распознаёт объекты по фрагментам
22.07.2025 21:18:43 | ferra.ru

В России создадут экологичную камеру сгорания для авиадвигателей
22.07.2025 21:11:30 | ferra.ru

Программу для точного прогноза селей создали в России
22.07.2025 21:08:45 | ferra.ru

В России выделили 262 млн рублей на разработку умных дронов
22.07.2025 21:05:44 | ferra.ru

Много клетчатки и не только: самые неожиданные полезные свойства банановой кожуры
22.07.2025 21:00:42 | ferra.ru

Добыча полезных ископаемых в космосе: от фантастики к стратегической цели
22.07.2025 20:55:37 | Хабр

Яндекс представил ИИ-ассистента для работы с данными
22.07.2025 20:40:41 | ferra.ru

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности
22.07.2025 20:35:30 | Хабр

Инсайдеры vs хакеры — кто опаснее?
22.07.2025 20:17:41 | Хабр

Ухудшение концентрации и другие изменения, которые происходят, когда вы много сидите перед экраном
22.07.2025 20:15:04 | ferra.ru

Яндекс Карты добавили детализацию сложных развязок
22.07.2025 19:57:56 | ferra.ru

Суд в Москве заочно арестовал автора проекта «вДудь» Юрия Дудя
22.07.2025 19:55:58 | vc.ru

Пуск Беспроводной CLI на Микроконтроллере
22.07.2025 19:42:41 | Хабр

Диетолог рассказала о пользе для здоровья добавления ягод к овсяным хлопьям
22.07.2025 19:30:48 | ferra.ru

Пользователям из США открыли доступ к «TON Кошельку» — некастодиальной версии встроенного в Telegram «Кошелька»
22.07.2025 19:28:51 | vc.ru

Geely и ECARX, что с вами не так?
22.07.2025 19:16:29 | Хабр

Яндекс стал первым в России сертифицированным разработчиком ИИ
22.07.2025 19:07:53 | ferra.ru

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Дочь Виктории Бони купила поношенную обувь и одежду после полета в экономклассе
10.03.2026 17:23:20 | Lenta.ru

Женская сборная Ирана по футболу летит домой, отказавшись от убежища в Австралии
10.03.2026 17:22:27 | Life.ru

Московские сугробы начнут таять быстрее обычного
10.03.2026 17:19:58 | Lenta.ru

Медведев назвал атаку на Иран подлой и неспровоцированной вооруженной агрессией
10.03.2026 17:15:59 | ТАСС

В Волгоградской области осудили водителя маршрутки после смертельного ДТП
10.03.2026 17:15:22 | ТАСС

На Украине замкомандира части украл $34 тыс. на закупках хлеба для военных
10.03.2026 17:15:21 | ТАСС

Почти 6 тыс. тонн гуманитарного груза отправили в прошлом году из Адыгеи в зону СВО
10.03.2026 17:15:06 | ТАСС

Иран заявил об атаке ракетами и БПЛА на базы США в ОАЭ и Бахрейне
10.03.2026 17:15:05 | ТАСС

Глава комитета начштабов США заявил об уважении к сопротивлению Ирана
10.03.2026 17:14:33 | Lenta.ru

Израильские ВВС нанесли удар по иранскому производству баллистических ракет
10.03.2026 17:14:00 | Российская Газета

"Аэрофлот" 11 марта выполнит два рейса из ОАЭ и приостановит полеты
10.03.2026 17:13:09 | ТАСС

В России заявили о возвращении страны в мировой спорт
10.03.2026 17:13:00 | Lenta.ru

Стало известно о взрыве в научно-исследовательском институте в Москве
10.03.2026 17:12:31 | Lenta.ru

Найден простой способ усилить внимание и работу мозга
10.03.2026 17:12:07 | Lenta.ru

На Украине решили продать титановые рудники попавшего под санкции бизнесмена
10.03.2026 17:11:57 | Lenta.ru

Следователи устанавливают личность девушки, тело которой нашли под мостом в Петербурге
10.03.2026 17:11:11 | Life.ru

В России 42 региона приняли законы о развитии ответственного бизнеса
10.03.2026 17:10:44 | ТАСС

ТАСС: авиация Израиля нанесла удары по объектам "Хезболлах" на юге Бейрута
10.03.2026 17:10:42 | ТАСС

КСИР: Иран ударил по авиабазе Рамат-Давид и аэропорту Хайфы
10.03.2026 17:10:14 | ТАСС

Стало известно о смерти подростка в российской школе
10.03.2026 17:10:00 | Lenta.ru

В Улан-Удэ в массовом ДТП пострадали четыре человека
10.03.2026 17:09:52 | ТАСС

Журналисту Дмитрию Кузнецу заочно дали 2,5 года за работу в нежелательном СМИ
10.03.2026 17:08:41 | Коммерсантъ

Рада не стала лишать званий олимпийского чемпиона Бубку по требованию Гераскевича
10.03.2026 17:08:07 | Life.ru

Израиль поразил научный центр КСИР и штаб «Аль-Кудс» в Тегеране
10.03.2026 17:08:03 | Life.ru

"Жемчуг" стал первым российским фильмом, который снимали внутри Тадж-Махала
10.03.2026 17:07:35 | ТАСС

В Петрозаводске расселят четыре аварийных дома
10.03.2026 17:07:04 | ТАСС

В Казахстане назвали причины резкого роста утильсбора на машины из России
10.03.2026 17:06:27 | Lenta.ru

В Грузии оставили в силе приговор Саакашвили по делу о растрате $3 млн
10.03.2026 17:06:18 | ТАСС

Историк Малышева предложила создать маршруты патриотического туризма в СНГ
10.03.2026 17:05:32 | ТАСС

Жителя Карачаево-Черкесии подозревают в убийстве егеря
10.03.2026 17:04:47 | ТАСС

Мальчик умер на уроке в российской школе
10.03.2026 17:04:31 | Life.ru

В Москве 10 марта температура воздуха не достигла рекордных отметок
10.03.2026 17:03:48 | ТАСС

Хегсет после беседы Путина и Трампа оптимистичен в вопросе мира на Украине
10.03.2026 17:03:00 | Российская Газета

Еще один курортный город России временно закрыл аэропорт
10.03.2026 17:02:34 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro