Хабы: Блог компании МТУСИ
Ученые МТУСИ и Института AIRI предложили новую модель детекции поддельных сгенерированных голосов под названием AASIST3. Представленная архитектура вошла в топ-10 лучших решений международного соревнования ASVspoof 2024 Challenge. Модель применима для противодействия голосовому мошенничеству и повышению безопасности систем, использующих голосовую аутентификацию.
Системы голосовой биометрии (ASV) помогают идентифицировать людей на основе их голосовых характеристик. Их используют для аутентификации пользователей при проведении финансовых транзакций и эксклюзивном контроле доступа в смарт-устройствах, а также в противодействии телефонному мошенничеству нового поколения.
Модели распознавания голоса могут быть уязвимы к состязательным атакам, когда определенным образом настроенное небольшое изменение входного аудио приводит к значительному изменению результатов работы модели, для человека же оно незаметно или незначительно. В поиске способов обойти преграды систем безопасности, злоумышленники научились генерировать синтетический голос с помощью преобразования текста в речь (text-to-speech, TTS) и преобразования голоса (voice conversion, VC). Для эффективного противодействия таким атакам необходимо внедрение систем защиты от подмены голоса.
ИИ-модель AASIST для анализа аудио ряда была продемонстрирована коллективом ученых из Южной Кореи и Франции в 2021 году и показала высокую надежность, подтвержденную многочисленными исследованиями. В то же время, с бурным развитием генеративного ИИ после 2022 года ей перестало хватать качественного функционала для обнаружения синтетических голосов. Использовав AASIST в качестве базы, команда НИО «Интеллектуальные решения» МТУСИ и команда «Доверенные и безопасные интеллектуальные системы» AIRI при участии аспиранта Сколтеха сформировала новую архитектуру для выявления поддельных синтезированных голосов.
Читать далее