Хабы: Python, Алгоритмы, Звук, Машинное обучение
Решил попробовать написать несколько статей о синтезе речи с поддержкой эмоций.
Все началось, когда я решил сделать простой MVP для улучшения разговорного иностранного языка на базе нейронок, онлайн-репетитор. Так как сам испытываю сложности с его изучением.
Но в процессе реализации, я использовал разные модели. Начиная от Fastpitch и Tocatron2 до Bark от Suno. Когда я тестировал свой первый MVP, то при длительном прослушивании синтетического голоса у меня начинала болеть голоса и возникало раздражение. Это особенно сильно возникало, когда озвучка голоса не соответствовала контексту. Возникал аналог эффекта "зловещей долины", но только для звука.
Это заставило меня попытаться найти решения, которое сделает голос более эмоциональным. Здесь я опишу, как я начинал переносить биологическую модель, на синтез сеток.
Первым моим шагом, была разработка модели "вдоха-выдоха". Идея заключалась в том, что 99,999% человек говорит исключительно на выдохе (это касается и животных).
Читать далее