Операция выполнена!
Закрыть

LeWorldModel (LeWM) — новая архитектура, разработанная Яном Лекуном (Yann LeCun) и его коллегами, которая знаменует собой значительный шаг вперёд в создании универсальных моделей мира. Ян Лекун, один из ведущих специалистов в области искусственного интеллекта, предложил концепцию Joint Embedding Predictive Architecture (JEPA) как альтернативу традиционным подходам к обучению моделей. В отличие от методов, которые фокусируются на предсказании пикселей или токенов, JEPA направлена на «понимание смысла данных», что делает её более близкой к реальному пониманию физики и логических связей.

Основная проблема, с которой сталкивались предыдущие реализации JEPA, заключалась в том, что модели часто схлопывались в тривиальные решения, не способные адекватно представлять структуру мира. Однако в новой работе Лекун и его команда представили первую стабильную версию JEPA, обучающуюся в сквозном режиме непосредственно из необработанных пикселей. Эта модель, названная LeWorldModel, использует всего 15 миллионов параметров и защищена от коллапсов благодаря инновационному регуляризатору SIGReg, который заставляет латентные представления соответствовать изотропному гауссовскому распределению.

LeWM состоит из двух основных компонентов: энкодера и предиктора. Энкодер, основанный на архитектуре Vision Transformer, преобразует кадры в компактные латентные представления. Предиктор, построенный на базе трансформера, моделирует динамику среды, предсказывая следующее состояние на основе текущего состояния и действия. Общий объём модели в 15 млн параметров делает её вычислительно эффективной.

Анимация сгенерирована: Ray3.14

Модель демонстрирует впечатляющие результаты в задачах управления. Например, в тестах PushT и Reacher она достигла успеха в 96% и 86% случаев соответственно, превосходя существующие методы (PushT — задача управления, агент должен двигать объекты к заданным целям в среде с физикой; оценивается точность и устойчивость модели при предсказании движения объектов. Reacher — классическая среда робототехники, где робот-манипулятор должен коснуться целевой точки; оценивается способность модели планировать движения и предсказывать последствия действий). Кроме того, LeWM выполняет планирование до 48 раз быстрее, чем модели на базе фундаментных сетей, таких как DINO-WM, благодаря компактности представлений.

Одним из ключевых достижений LeWM является её способность формировать пространство, которое кодирует значимые физические характеристики. Это позволяет модели эффективно обнаруживать физически неправдоподобные события, такие как телепортация объектов, через механизм «оценки неожиданности». Эксперименты показали, что модель способна с высокой точностью извлекать координаты объектов и другие физические параметры.

LeWM обладает рядом преимуществ, включая стабильность обучения, минимальные вычислительные требования и высокую скорость работы. Однако модель имеет ограничения, такие как зависимость от качества данных и сложность работы в простых средах с низкой вариативностью. Будущие исследования могут быть направлены на иерархическое моделирование мира для решения задач с длинным горизонтом планирования.

LeWorldModel открывает новые горизонты в области предсказательных моделей мира. Компактность, стабильность и способность к физической интерпретации делают её подходящим инструментом для создания автономных систем, способных обучаться на сырых данных и принимать решения в реальном времени. Эта архитектура прокладывает путь к поколению ИИ, способному понимать и предсказывать динамику окружающего мира.

Читайте также
ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro