Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Машинное обучение, Open source, Софт, Лайфхаки для гиков

Голосом мы говорим в 2-3 раза быстрее, чем печатаем — это давно известно. Вопрос только в том, умеет ли голосовой ввод разбираться с русско-английской смесью, на которой мы общаемся с LLM и пишем код: «объясни на русском», «открой в Cursor», «проверь, что deploy прошёл». За полгода я перепробовал 5+ приложений и 5 моделей, чтобы найти те, что умеют.

Приложения: WisprFlow, SpeakFlow, Handy, OpenWhispr, SuperWhisper — облачные и локальные, платные и open source.

Модели: Whisper Large v3, Turbo, GigaAM v3 от Сбера, Canary 1B v2 от NVIDIA, Parakeet V3.

Внутри:

— Замена облачного WisprFlow на бесплатный open source без потери качества.

— Один текстовый промпт, починивший пропадающую пунктуацию в 99% случаев — без LLM-постпроцессоров и задержек.

— Мой бенчмарк Whisper Turbo vs Large v3 на RTX 5070 Ti (Vulkan на Blackwell внезапно быстрее CUDA на 50%).

— GigaAM v3 и Canary 1B v2 — где конкурируют с Whisper, а где ломают английские слова в кириллицу («Gemini» → «Jemni»).

— Первый в моей жизни принятый в main pull request в open source.

Актуально на апрель 2026.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro