
Microsoft представила модель искусственного интеллекта Magma, способную одновременно обрабатывать визуальные данные, текст и управлять физическими объектами. Разработка стала результатом совместных усилий исследователей из Microsoft, KAIST, Университета Мэриленда, Университета Висконсин-Мэдисон и Университета Вашингтона.
В отличие от существующих систем, таких как PALM-E и RT-2 от Google или ChatGPT for Robotics от Microsoft, которые используют отдельные модели для восприятия и управления, Magma объединяет эти возможности в единую основу. Система способна не только анализировать мультимодальные данные, но и самостоятельно действовать на их основе – будь то навигация по пользовательскому интерфейсу или манипуляции с физическими предметами.

Модель основана на двух ключевых компонентах. Первый – Set-of-Mark – идентифицирует объекты, с которыми можно взаимодействовать, присваивая числовые метки интерактивным элементам. Второй компонент – Trace-of-Mark – изучает схемы движения на основе видеоданных. Благодаря этому Magma может выполнять такие задачи, как навигация по интерфейсам или управление роботизированными манипуляторами.
По данным Microsoft, модель Magma-8B показывает впечатляющие результаты в тестовых испытаниях. В частности, она набрала 80,0 баллов в тесте VQAv2 (Visual Question Answering) — стандартном тесте, где система должна отвечать на вопросы о содержании изображений, что является важным показателем понимания визуальной информации. В тесте POPE (Popular Object in Common Environment), который проверяет способность модели точно определять наличие или отсутствие распространённых объектов на изображениях, система достигла результата 87,4, став лидером среди сравниваемых моделей. Такие показатели говорят о высокой точности визуального восприятия и анализа, превосходящей возможности GPT-4V (77,2 балла в VQAv2), хотя в некоторых тестах Magma всё же уступает другим системам, например LLaVA-Next (81,8 балла в VQAv2).
Исследователь проекта Magma Цзяньвэй Ян пояснил, что название расшифровывается как M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch).
Microsoft планирует опубликовать код для Magma на GitHub, что позволит исследователям развивать эту технологию. Несмотря на многообещающие результаты, система всё ещё имеет ограничения в сложных многоступенчатых процессах принятия решений, над улучшением которых продолжается работа.
Появление Magma отражает стремительное развитие моделей искусственного интеллекта, на сегодня это стандартное направление исследований, не вызывающее призывов к приостановке разработок в области ИИ.
-
23.02.2025 21:37:00 | iXBT.com
23.02.2025 21:17:00 | iXBT.com
23.02.2025 20:52:00 | iXBT.com
23.02.2025 20:28:00 | iXBT.com
23.02.2025 20:15:00 | iXBT.com
23.02.2025 19:56:00 | iXBT.com
23.02.2025 19:13:00 | iXBT.com
23.02.2025 18:34:00 | iXBT.com
23.02.2025 18:21:00 | iXBT.com
23.02.2025 18:07:00 | iXBT.com
23.02.2025 17:45:44 | Ведомости
23.02.2025 17:33:00 | iXBT.com
23.02.2025 17:13:00 | iXBT.com
23.02.2025 17:06:00 | iXBT.com
23.02.2025 16:48:00 | iXBT.com
23.02.2025 16:34:00 | iXBT.com
23.02.2025 14:58:00 | iXBT.com
23.02.2025 14:54:00 | iXBT.com
23.02.2025 14:34:00 | iXBT.com
23.02.2025 13:54:55 | TechCult.ru
23.02.2025 12:31:00 | iXBT.com
23.02.2025 11:44:00 | iXBT.com
23.02.2025 08:06:43 | Ведомости
23.02.2025 07:41:00 | iXBT.com
23.02.2025 07:30:00 | iXBT.com
23.02.2025 07:10:00 | iXBT.com
22.02.2025 23:55:00 | iXBT.com
22.02.2025 23:40:00 | iXBT.com
-
24.02.2025 00:45:51 | ferra.ru
24.02.2025 00:42:24 | ferra.ru
23.02.2025 23:15:34 | ferra.ru
23.02.2025 21:45:00 | ferra.ru
23.02.2025 21:10:23 | Хабр
23.02.2025 21:00:00 | ferra.ru
23.02.2025 20:59:53 | it-world
23.02.2025 20:15:00 | ferra.ru
23.02.2025 19:30:00 | ferra.ru
23.02.2025 18:45:00 | ferra.ru
23.02.2025 18:00:00 | ferra.ru
23.02.2025 17:15:00 | ferra.ru
23.02.2025 15:51:10 | Хабр
23.02.2025 15:46:21 | Хабр
23.02.2025 15:45:00 | ferra.ru
Техническая поддержка проекта ВсеТут