Операция выполнена!
Закрыть

Учёные лаборатории искусственного интеллекта Сбербанка предложили новый подход к распознаванию эмоций в реальных условиях. Специалисты показали, как комбинация визуальных, акустических и текстовых данных повышает точность эмоционального анализа на основе моделей искусственного интеллекта.

Сгенерировано нейросетью Dall-E

На практике системы распознавания эмоций часто сталкиваются с несколькими проблемами. Во-первых, это низкая точность в условиях изменяющегося освещения, ракурсов или фонового шума. Во-вторых, высокие вычислительные затраты современных алгоритмов, затрудняющие возможность обработки чувствительной персональной информации (видео лиц) на пользовательских устройствах. Наконец, для обучения моделей необходимы большие объёмы данных, при этом качественная разметка несколькими экспертами эмоций на видео обычно занимает много времени.

Решение исследователей Сбера основано на трёх ключевых аспектах. Эксперты предложили использовать обученные на открытых наборах фотографий эмоциональных лиц эффективные нейронные сети (EmotiEffNet, MobileViT, MobileFaceNet) для анализа мимики, что позволяет эффективно работать в режиме реального времени даже на обычных смартфонах. Кроме этого, для снижения нагрузки на систему и повышения точности проводится фильтрация кадров, эмоции на которых надёжно распознаются с помощью предобученных моделей. Также учёные доказали, что комбинирование данных из разных источников (текст, аудио, видео) с помощью метода «позднего слияния» (late fusion) ускоряет адаптацию модели к решению новых задач.

Результаты исследования представили в работе Leveraging Lightweight Facial Models and Textual Modality in Audio-visual Emotional Understanding in-the-Wild («Использование легковесных моделей анализа лица и текстовых модальностей в аудиовизуальном понимании эмоций в естественных условиях»). Её приняли к публикации на международной конференции CVPR. На восьмом международном конкурсе ABAW предложанный подход занял 1-е место в задачах распознавания выражений лица и амбивалентности (нерешительности) и 3-е место в оценке интенсивности эмоций и детектировании микровыражений (action units). 

Читайте также
СТАТЬ АВТОРОМ
ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro