Операция выполнена!
Закрыть
Хабы: Habr, Машинное обучение, Робототехника

Начинаем серию разборов современных Vision-Language-Action (VLA) моделей для манипуляции. Несмотря на то, что им всего около года (π₀ была представлена ровно год назад — 31 октября 2024), текущие системы уже можно считать вторым поколением VLA-подходов. Их ключевое отличие — появление дополнительного модуля action head, который представляет собой не просто голову над представлениями, а отдельный диффузионный трансформер, обучаемый по задаче flow matching.

Сегодня — разбор GR00T от NVIDIA, который с момента релиза N1 уже успел обновиться до версии N1.5, а на днях ожидается N1.6.

Концепция VLA и постановка задачи

VLA-модель — это end-to-end система, принимающая на вход «сырые» сенсорные сигналы различных модальностей (видео, текст, состояния сочленений робота) и напрямую предсказывающая управляющие действия, без внешнего планировщика или постобработки.

Для человекоподобного робота входные данные включают:

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro