Операция выполнена!
Закрыть
Хабы: Блог компании Конференции Олега Бунина (Онтико), Искусственный интеллект, Машинное обучение

В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи, от журналистского интервью до заседания диссертационного совета. Будто древнерусский пи́сец, который записывает за боярином всё, что тот говорит, и затем сохраняет в виде структурированного текста с таймингами.

Я — Иван Бондаренко, старший преподаватель и научный сотрудник Новосибирского государственного университета, сооснователь стартапа «Сибирские нейросети». Вместе с коллегами я реализовал систему, которая помогает в расшифровке живых бесед на русском языке. Мы назвали её «Писец» и протестировали на Тотальном диктанте. В этой статье расскажу, что у нас получилось: как выбирали модели, наборы данных, инструменты, как использовали Wav2Vec2 и Whisper в пайплайне распознавания, файнтюнили Whisper. Ещё коснусь вопросов робастного обучения, парадигмы минимизации инвариантного риска и понятия среды (environment) в распознавании речи.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro