
Nvidia продолжает расширять линейку открытых нейросетевых моделей. Её новая разработка — система автоматического распознавания речи (ASR) Parakeet-TDT-0.6B-v2 — способна расшифровывать час аудио всего за секунду, приближаясь по точности к платным аналогам, таким как GPT-4o и ElevenLabs Scribe. Модель доступна под свободной лицензией CC-BY-4.0, что позволяет коммерческое использование без ограничений.
Parakeet-TDT-0.6B-v2, представленная 1 мая, возглавила рейтинг Open ASR Leaderboard от Hugging Face с показателем Word Error Rate (WER) 6,05%. Для сравнения: у GPT-4o-transcribe этот параметр составляет 2,46%, у ElevenLabs Scribe — 3,3%. Модель использует архитектуры FastConformer (кодировщик) и TDT (декодировщик), обрабатывая аудио в 3386 раз быстрее реального времени при пакетном размере 128. Она поддерживает расстановку пунктуации, капитализацию и точные временые метки для каждого слова.

Обучение модели проводилось на массиве Granary, включающем 120 000 часов англоязычных записей. Из них 10 000 часов — это размеченные людьми данные из LibriSpeech и Mozilla Common Voice, а 110 000 — псевдоразметка из открытых источников вроде YouTube-Commons и Librilight. Полный датасет Nvidia планирует опубликовать после конференции Interspeech 2025.
Parakeet-TDT-0.6B-v2 демонстрирует стабильную работу в шумной среде и с телефонными аудиодорожками, хотя при низком соотношении сигнал/шум точность незначительно снижается. Модель оптимизирована для GPU Nvidia (A100, H100, T4, V100), но может работать даже на системах с 2 ГБ оперативной памяти. Для развёртывания доступны Python-скрипты и фреймворк NeMo, позволяющие дообучать систему под специфические задачи.
При создании модели компания заявила о соблюдении принципов ответственного ИИ: обучение велось без использования персональных данных, а документация включает описание методов сбора данных и оценки приватности. Однако явных мер по снижению демографических смещений не предусмотрено.
Разработчики уже называют Parakeet-TDT-0.6B-v2 прорывом для opensource-сообщества. Модель доступна на платформе Hugging Face и через NeMo, что упрощает интеграцию в сервисы транскрибации, голосовых ассистентов или генерации субтитров.
-
06.05.2025 07:17:00 | iXBT.com
06.05.2025 06:50:00 | iXBT.com
06.05.2025 06:36:00 | iXBT.com
06.05.2025 06:19:00 | iXBT.com
06.05.2025 06:09:00 | iXBT.com
06.05.2025 05:59:00 | iXBT.com
06.05.2025 05:50:00 | iXBT.com
06.05.2025 05:42:00 | iXBT.com
06.05.2025 05:35:00 | iXBT.com
06.05.2025 01:17:26 | Ведомости
06.05.2025 00:48:00 | iXBT.com
06.05.2025 00:32:00 | iXBT.com
05.05.2025 23:27:00 | iXBT.com
05.05.2025 23:14:00 | iXBT.com
05.05.2025 23:01:00 | iXBT.com
05.05.2025 22:41:00 | iXBT.com
05.05.2025 22:35:00 | iXBT.com
05.05.2025 22:19:00 | iXBT.com
05.05.2025 21:53:00 | iXBT.com
05.05.2025 21:43:00 | iXBT.com
05.05.2025 20:55:00 | iXBT.com
05.05.2025 20:47:00 | iXBT.com
05.05.2025 20:33:00 | iXBT.com
05.05.2025 20:25:00 | iXBT.com
05.05.2025 20:15:00 | iXBT.com
05.05.2025 20:05:00 | iXBT.com
05.05.2025 19:40:00 | iXBT.com
05.05.2025 19:34:00 | iXBT.com
05.05.2025 19:07:00 | iXBT.com
05.05.2025 18:56:00 | iXBT.com
-
06.05.2025 09:59:34 | ferra.ru
06.05.2025 09:52:33 | ferra.ru
06.05.2025 09:45:42 | ferra.ru
06.05.2025 09:44:32 | ferra.ru
06.05.2025 09:37:32 | ferra.ru
06.05.2025 09:30:29 | ferra.ru
06.05.2025 09:23:26 | ferra.ru
06.05.2025 08:59:22 | ferra.ru
06.05.2025 08:53:18 | ferra.ru
06.05.2025 08:46:22 | ferra.ru
06.05.2025 08:39:17 | ferra.ru
06.05.2025 08:37:43 | vc.ru
06.05.2025 08:37:43 | vc.ru
06.05.2025 06:45:21 | Хабр
06.05.2025 06:45:03 | ferra.ru
06.05.2025 06:29:06 | Хабр
06.05.2025 06:14:15 | Хабр
06.05.2025 06:13:07 | Хабр
Техническая поддержка проекта ВсеТут