Операция выполнена!
Закрыть

Компании Groq и PlayAI объявили о стратегическом партнёрстве, направленном на вывод на рынок модели преобразования текста в речь Dialog. Решение, доступное через платформу GroqCloud, сочетает голосовые технологии PlayAI и специализированные LPU-чипы Groq, которые обеспечивают скорость обработки до 140 символов в секунду — на 63% выше, чем при использовании GPU. Как заявили разработчики, система не только генерирует естественно звучащую речь, но и учитывает контекст диалога за счёт уникальной архитектуры.

Dialog стал первым ИИ-решением с поддержкой арабского языка, созданным специально для рынка Ближнего Востока. Для PlayAI, основанной выходцами из стран Ближнего Востока и Северной Африки (MENA), локализация стала приоритетом: «Это не только наш родной язык, но и важный инструмент для глобального бизнеса», — подчеркнул CEO PlayAI Махмуд Фельфель.

Изображение: нейросеть Leonardo

Основой модели стал «адаптивный речевой контекстуализатор» (Adaptive Speech Contextualizer, ASC), который анализирует историю диалога для подбора интонации и эмоциональной окраски. «Каждая реплика учитывает предыдущие фразы, что делает общение более естественным», — пояснил Фельфель. По данным тестов Podonos, Dialog в 10 раз чаще выбирали пользователи по сравнению с ElevenLabs v2.5 Turbo и в 3 раза чаще, чем ElevenLabs Multilingual v2.0.

Ключевым преимуществом системы стала скорость: LPU-чипы Groq обрабатывают до 140 символов в секунду, что позволяет генерировать речь в 10 раз быстрее реального времени. «Раньше приходилось объединять решения разных вендоров для ASR, генеративного ИИ и синтеза речи. Теперь GroqCloud предлагает всё в единой платформе», — добавил Эндрюс.

Партнёрство появилось на фоне экспансии Groq в регионе MENA: компания получила $1,5 млрд от Саудовской Аравии и запустила в Даммаме «крупнейший в регионе кластер для инференса». Dialog доступен через облачный сервис GroqCloud с бесплатным тарифом для тестирования и платной подпиской.

Среди применений технологии — колл-центры, автоматизация продаж, озвучка контента и повышение доступности сайтов для слабовидящих. По словам Фельфеля, снижение задержки до 300 мс критично для сценариев вроде голосовых ассистентов, где «паузы разрушают иллюзию живого общения».

Аналитики отмечают, что поддержка арабского языка и низкая задержка могут ускорить внедрение голосового ИИ в MENA — регионе с населением 460 млн человек, где 60% пользователей младше 30 лет. Для Groq это также возможность укрепиться на рынке после инвестиций Саудовской Аравии, которая планирует стать лидером в области ИИ к 2030 году.

Читайте также
СТАТЬ АВТОРОМ
ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro