Основы парсинга сайтов: от HTML до готового датасета для NLP

07.05.2026 06:51:00 | Хабр

Хабы: Блог компании OTUS, Машинное обучение, Python, Natural Language Processing

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу.

В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

Подробнее

Читайте также

LEGO Education 2026: Новые наборы? Новая электроника? Новая образовательная парадигма
07.05.2026 06:43:57 | Хабр

Самая криминальная команда в ИИ: кто стоит за Perplexity. Досье SpeShu.AI
07.05.2026 06:37:58 | Хабр

Техническая архитектура систем сбора, обработки и передачи биометрических ПДн
07.05.2026 06:31:34 | Хабр

[Перевод] 7. Проектирование с помощью типов: Нестроковые типы
07.05.2026 06:30:50 | Хабр

Пиратство в эпоху VHS: как Universal судилась с Sony и почему последствия этого спора мы ощущаем и в наши дни
07.05.2026 06:12:45 | Хабр

Документальное обеспечение взыскания дебиторской задолженности в арбитражном суде: требования 2024–2026 годов
07.05.2026 06:00:42 | Хабр

Невидимый syntax error в PostgreSQL: как одна строка SQL съела полтора дня дебага
07.05.2026 05:53:08 | Хабр

Двусторонний монтаж печатных плат
07.05.2026 05:42:47 | Хабр

Оземпик: что изменилось в 2026 и почему таблетки не отменяют систему
07.05.2026 02:59:22 | Хабр

В России создали эталон порошка для 3D-печати
06.05.2026 23:58:51 | ferra.ru

Я пошутил, что разработчики больше не нужны — и мне поверили. Давайте теперь серьезно
06.05.2026 23:40:36 | Хабр

В России разработали ИИ для генерации музыки и аудио
06.05.2026 23:34:19 | ferra.ru

В НГУ создали программу для анализа углеродных материалов
06.05.2026 23:32:17 | ferra.ru

Новгородский инженер создал простую формулу расчета осадки свай
06.05.2026 22:57:45 | ferra.ru

Ученые ПНИПУ создали программу для проектирования реакторов метанола
06.05.2026 22:46:57 | ferra.ru

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем
06.05.2026 22:43:41 | Хабр

Правильная агентская архитектура в 2026 г. Часть 2. Durable state: approvals, session context и background jobs
06.05.2026 22:20:12 | Хабр

[Перевод] Как ИИ потерял доверие общества в США
06.05.2026 22:14:05 | Хабр

Huawei показала тизер ультратонкого планшета MatePad Pro Max
06.05.2026 22:09:38 | ferra.ru

На Дальнем Востоке создадут систему быстрого обнаружения пожаров
06.05.2026 22:08:18 | ferra.ru

В Сибири обнаружили новый вид древних одноклеточных
06.05.2026 21:18:49 | ferra.ru

Вологодская область перейдет на платформу «МЭШ» с сентября
06.05.2026 21:06:59 | ferra.ru

Передача и прием данных по лазерному лучу (SDR декодирование BPSK в реальном времени)
06.05.2026 20:48:12 | Хабр

Передача данных по лазерному лучу (BPSK)
06.05.2026 20:48:12 | Хабр

В «Максе» появилась расшифровка видеосообщений
06.05.2026 20:33:56 | ferra.ru

SmileLadder. Цикл «Память и мозг». Как формируется память
06.05.2026 20:32:57 | Хабр

ИИ-компания Anthropic вложит $200 млрд в Google
06.05.2026 20:09:37 | ferra.ru

Пет-проект и персональные данные: как соблюсти минимальные необходимые требования и не попасть на штрафы
06.05.2026 20:07:46 | Хабр

TeachTrack: NestJS + Telegram-бот напоминаний + РКН — как я в одиночку собрал CRM для частных репетиторов
06.05.2026 19:58:10 | Хабр

В России создали собственную референсная последовательность генома
06.05.2026 19:54:48 | ferra.ru

Ledger — прохождение сложной машины от Tryhackme
06.05.2026 19:32:07 | Хабр

Samsung Electronics объявила партнёрам о планах уйти с китайского рынка телевизоров и бытовой техники после 34 лет работы — СМИ
06.05.2026 19:27:52 | vc.ru

Крупные книжные издательства подали в суд на Meta* за «кражу» книг для обучения ИИ
06.05.2026 19:26:51 | ferra.ru

Нейросеть для создания песни ИИ бесплатно: лучшие нейросети для музыки
06.05.2026 19:20:08 | Хабр

Штампы LLM. Разбираю с новой точки зрения
06.05.2026 19:07:12 | Хабр

Смотреть все

НОВОСТИ

Миклухо-Маклай защищал папуасов от колониальной экспансии
17.07.2026 06:41:46 | ТАСС

Трамп заявил о махинациях на парламентских выборах 2020 года в Венесуэле
17.07.2026 06:40:50 | Life.ru

В четверг вечером президент США Дональд Трамп выступил с обращением к нации
17.07.2026 06:40:00 | Российская Газета

По меньшей мере 14 человек погибли в ДТП на севере Перу
17.07.2026 06:39:00 | Российская Газета

Нетаньяху взбесил Трампа
17.07.2026 06:38:55 | Lenta.ru

Против лжеоператоров из Кузбасса за использование SIM-боксов завели дело
17.07.2026 06:35:41 | ТАСС

Миклухо-Маклай одним из первых опроверг расовые мифы о папуасах
17.07.2026 06:34:11 | ТАСС

"Вкусно - и точка" рассматривает экспорт картофеля общего завода с "Мираторгом"
17.07.2026 06:33:19 | ТАСС

Дроны "Севера" уничтожили украинскую ББМ "Козак" в Сумской области
17.07.2026 06:33:15 | ТАСС

"Север" за сутки уничтожил 4 украинских НРТК в Сумской области
17.07.2026 06:32:52 | ТАСС

Большинство опрошенных айтишников в РФ задумались о смене работы
17.07.2026 06:32:19 | ТАСС

На подходах к Крымскому мосту в очередях на досмотр стоят 1 100 автомобилей
17.07.2026 06:31:06 | Life.ru

ТАСС: в моргах Чернигова лежат сотни тел солдат ВСУ из-за лимитов на выдачу
17.07.2026 06:30:59 | ТАСС

ТАСС: ВСУ привлекают к оборудованию позиций под Сумами местных жителей
17.07.2026 06:30:43 | ТАСС

ТАСС: ВСУ перебрасывают подразделения полка "Рысь" под Сумы
17.07.2026 06:30:43 | ТАСС

Мошенники стали маскировать свои переводы покупками жертв
17.07.2026 06:30:29 | Lenta.ru

Привычный продукт оказался способен защитить печень при диабете
17.07.2026 06:30:24 | Lenta.ru

В России создали биоцемент из бактерий для строительства дорог в Арктике
17.07.2026 06:30:02 | ТАСС

Ожившая история: по следам Миклухо-Маклая
17.07.2026 06:30:00 | ТАСС

Порядка 700 ямальских ветеранов спецоперации получили медицинскую помощь
17.07.2026 06:29:27 | ТАСС

Кинологи рассказали, как сэкономить на содержании собаки
17.07.2026 06:29:12 | ТАСС

Расчёты ПВО отразили атаку БПЛА ВСУ в пяти районах Ростовской области
17.07.2026 06:28:40 | Life.ru

То, что раньше стоило десятки тысяч: В Госдуме назвали новые бесплатные услуги по ОМС
17.07.2026 06:26:25 | Life.ru

Разведка США считала, что Меркель не хотела переизбрания Трампа в 2020 году
17.07.2026 06:23:38 | ТАСС

Депутат Чаплин разъяснил новые правила выплат по беременности и родам
17.07.2026 06:21:47 | ТАСС

В Домодедово сняли ограничения
17.07.2026 06:20:32 | ТАСС

Ограничения сняты в столичном аэропорту Домодедово
17.07.2026 06:20:32 | ТАСС

Стало известно об отказе ФБР признать вмешательство Китая в выборы в США
17.07.2026 06:20:00 | Lenta.ru

IRIB: в Чабахаре в Иране произошли взрывы
17.07.2026 06:18:29 | ТАСС

Daily Mail назвала возможную причину аномального землетрясения у берегов США
17.07.2026 06:18:25 | ТАСС

Эксперт Кржановский: регионы должны устанавливать тариф на воду на долгий срок
17.07.2026 06:16:58 | ТАСС

В США сообщили о завершении новой серии ударов по Ирану
17.07.2026 06:15:59 | Life.ru

В Бердянске приостановили водоснабжение
17.07.2026 06:14:37 | ТАСС

Трамп поручил наказать причастных к сокрытию данных о выборах в США
17.07.2026 06:14:06 | Life.ru

Временные ограничения введены в аэропорту Чебоксар
17.07.2026 06:14:05 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro