Хабы: Блог компании AIRI, Работа с видео, Алгоритмы, Искусственный интеллект, Natural Language Processing
Мы в лаборатории Fusion Brain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре.
Мы также любим придумывать соревнования по этой теме. Так, команда Fusion Brain уже четвертый год готовит трек соревнования в рамках осенней конференции AIJ. Обычно это было соревнование, направленное на разработку мультимодальной модели для картинок и текста, а в прошлом году мы добавили аудио.
В этом году мы решили пойти дальше и сместить фокус на анализ видео и аудио во взаимодействии с человеком. Назвали соответствующе — Emotional Fusion Brain 4.0. Ниже — подробности и детали соревнования.
Читать далее