
Учёные лаборатории искусственного интеллекта Сбербанка предложили новый подход к распознаванию эмоций в реальных условиях. Специалисты показали, как комбинация визуальных, акустических и текстовых данных повышает точность эмоционального анализа на основе моделей искусственного интеллекта.

На практике системы распознавания эмоций часто сталкиваются с несколькими проблемами. Во-первых, это низкая точность в условиях изменяющегося освещения, ракурсов или фонового шума. Во-вторых, высокие вычислительные затраты современных алгоритмов, затрудняющие возможность обработки чувствительной персональной информации (видео лиц) на пользовательских устройствах. Наконец, для обучения моделей необходимы большие объёмы данных, при этом качественная разметка несколькими экспертами эмоций на видео обычно занимает много времени.
Решение исследователей Сбера основано на трёх ключевых аспектах. Эксперты предложили использовать обученные на открытых наборах фотографий эмоциональных лиц эффективные нейронные сети (EmotiEffNet, MobileViT, MobileFaceNet) для анализа мимики, что позволяет эффективно работать в режиме реального времени даже на обычных смартфонах. Кроме этого, для снижения нагрузки на систему и повышения точности проводится фильтрация кадров, эмоции на которых надёжно распознаются с помощью предобученных моделей. Также учёные доказали, что комбинирование данных из разных источников (текст, аудио, видео) с помощью метода «позднего слияния» (late fusion) ускоряет адаптацию модели к решению новых задач.
Результаты исследования представили в работе Leveraging Lightweight Facial Models and Textual Modality in Audio-visual Emotional Understanding in-the-Wild («Использование легковесных моделей анализа лица и текстовых модальностей в аудиовизуальном понимании эмоций в естественных условиях»). Её приняли к публикации на международной конференции CVPR. На восьмом международном конкурсе ABAW предложанный подход занял 1-е место в задачах распознавания выражений лица и амбивалентности (нерешительности) и 3-е место в оценке интенсивности эмоций и детектировании микровыражений (action units).
-
23.04.2025 16:55:00 | iXBT.com
23.04.2025 16:53:00 | iXBT.com
23.04.2025 16:50:00 | iXBT.com
23.04.2025 16:27:00 | iXBT.com
23.04.2025 16:01:00 | iXBT.com
23.04.2025 15:55:00 | iXBT.com
23.04.2025 15:42:54 | TechCult.ru
23.04.2025 15:40:00 | iXBT.com
23.04.2025 15:18:00 | iXBT.com
23.04.2025 14:35:00 | iXBT.com
23.04.2025 14:20:00 | iXBT.com
23.04.2025 13:50:00 | iXBT.com
23.04.2025 13:11:00 | iXBT.com
23.04.2025 13:00:00 | iXBT.com
23.04.2025 12:58:00 | iXBT.com
23.04.2025 12:48:00 | iXBT.com
23.04.2025 12:37:00 | iXBT.com
23.04.2025 12:30:00 | iXBT.com
23.04.2025 12:29:00 | iXBT.com
23.04.2025 12:25:00 | iXBT.com
23.04.2025 12:16:00 | iXBT.com
23.04.2025 12:07:00 | iXBT.com
23.04.2025 12:07:00 | iXBT.com
23.04.2025 11:53:53 | TechCult.ru
23.04.2025 11:51:00 | iXBT.com
23.04.2025 11:47:00 | iXBT.com
23.04.2025 11:32:00 | iXBT.com
23.04.2025 11:23:00 | iXBT.com
23.04.2025 11:12:00 | iXBT.com
-
24.04.2025 07:58:03 | ferra.ru
24.04.2025 07:42:02 | ferra.ru
24.04.2025 07:34:02 | ferra.ru
24.04.2025 07:26:01 | ferra.ru
24.04.2025 07:10:01 | ferra.ru
24.04.2025 06:00:11 | ferra.ru
24.04.2025 04:53:43 | Хабр
24.04.2025 04:15:05 | Хабр
24.04.2025 03:00:39 | ferra.ru
24.04.2025 02:15:42 | ferra.ru
24.04.2025 00:45:48 | ferra.ru
24.04.2025 00:00:08 | ferra.ru
24.04.2025 00:00:00 | Woman.ru
23.04.2025 23:57:03 | ferra.ru
23.04.2025 23:45:35 | ferra.ru
23.04.2025 23:25:03 | ferra.ru
23.04.2025 23:15:00 | ferra.ru
23.04.2025 23:10:20 | ferra.ru
Техническая поддержка проекта ВсеТут