
Nvidia продолжает расширять линейку открытых нейросетевых моделей. Её новая разработка — система автоматического распознавания речи (ASR) Parakeet-TDT-0.6B-v2 — способна расшифровывать час аудио всего за секунду, приближаясь по точности к платным аналогам, таким как GPT-4o и ElevenLabs Scribe. Модель доступна под свободной лицензией CC-BY-4.0, что позволяет коммерческое использование без ограничений.
Parakeet-TDT-0.6B-v2, представленная 1 мая, возглавила рейтинг Open ASR Leaderboard от Hugging Face с показателем Word Error Rate (WER) 6,05%. Для сравнения: у GPT-4o-transcribe этот параметр составляет 2,46%, у ElevenLabs Scribe — 3,3%. Модель использует архитектуры FastConformer (кодировщик) и TDT (декодировщик), обрабатывая аудио в 3386 раз быстрее реального времени при пакетном размере 128. Она поддерживает расстановку пунктуации, капитализацию и точные временые метки для каждого слова.

Обучение модели проводилось на массиве Granary, включающем 120 000 часов англоязычных записей. Из них 10 000 часов — это размеченные людьми данные из LibriSpeech и Mozilla Common Voice, а 110 000 — псевдоразметка из открытых источников вроде YouTube-Commons и Librilight. Полный датасет Nvidia планирует опубликовать после конференции Interspeech 2025.
Parakeet-TDT-0.6B-v2 демонстрирует стабильную работу в шумной среде и с телефонными аудиодорожками, хотя при низком соотношении сигнал/шум точность незначительно снижается. Модель оптимизирована для GPU Nvidia (A100, H100, T4, V100), но может работать даже на системах с 2 ГБ оперативной памяти. Для развёртывания доступны Python-скрипты и фреймворк NeMo, позволяющие дообучать систему под специфические задачи.
При создании модели компания заявила о соблюдении принципов ответственного ИИ: обучение велось без использования персональных данных, а документация включает описание методов сбора данных и оценки приватности. Однако явных мер по снижению демографических смещений не предусмотрено.
Разработчики уже называют Parakeet-TDT-0.6B-v2 прорывом для opensource-сообщества. Модель доступна на платформе Hugging Face и через NeMo, что упрощает интеграцию в сервисы транскрибации, голосовых ассистентов или генерации субтитров.
-
06.05.2025 07:17:00 | iXBT.com
06.05.2025 06:50:00 | iXBT.com
06.05.2025 06:36:00 | iXBT.com
06.05.2025 06:19:00 | iXBT.com
06.05.2025 06:09:00 | iXBT.com
06.05.2025 05:59:00 | iXBT.com
06.05.2025 05:50:00 | iXBT.com
06.05.2025 05:42:00 | iXBT.com
06.05.2025 05:35:00 | iXBT.com
06.05.2025 01:17:26 | Ведомости
06.05.2025 00:48:00 | iXBT.com
06.05.2025 00:32:00 | iXBT.com
05.05.2025 23:27:00 | iXBT.com
05.05.2025 23:14:00 | iXBT.com
05.05.2025 23:01:00 | iXBT.com
05.05.2025 22:41:00 | iXBT.com
05.05.2025 22:35:00 | iXBT.com
05.05.2025 22:19:00 | iXBT.com
05.05.2025 21:53:00 | iXBT.com
05.05.2025 21:43:00 | iXBT.com
05.05.2025 20:55:00 | iXBT.com
05.05.2025 20:47:00 | iXBT.com
05.05.2025 20:33:00 | iXBT.com
05.05.2025 20:25:00 | iXBT.com
05.05.2025 20:15:00 | iXBT.com
05.05.2025 20:05:00 | iXBT.com
05.05.2025 19:40:00 | iXBT.com
05.05.2025 19:34:00 | iXBT.com
05.05.2025 19:07:00 | iXBT.com
05.05.2025 18:56:00 | iXBT.com
-
17.07.2025 16:45:08 | ferra.ru
17.07.2025 16:30:03 | ferra.ru
17.07.2025 16:15:06 | КИНО-ТЕАТР.РУ
17.07.2025 15:45:46 | ferra.ru
17.07.2025 15:30:06 | КИНО-ТЕАТР.РУ
17.07.2025 15:01:05 | ferra.ru
17.07.2025 15:00:34 | ferra.ru
17.07.2025 14:51:32 | it-world
17.07.2025 14:45:06 | КИНО-ТЕАТР.РУ
17.07.2025 14:32:35 | vc.ru
17.07.2025 14:00:05 | КИНО-ТЕАТР.РУ
17.07.2025 13:58:32 | Хабр
17.07.2025 13:48:11 | Woman.ru
17.07.2025 13:32:26 | КИНО-ТЕАТР.РУ
17.07.2025 13:30:58 | ferra.ru
Техническая поддержка проекта ВсеТут