Операция выполнена!
Закрыть
Хабы: Блог компании МТС, Искусственный интеллект, Анализ и проектирование систем, Робототехника, Машинное обучение

Когда мы смотрим на очередное видео, где робот ловко перебирает предметы или открывает дверь, кажется, что будущее почти наступило, хотя в реальности даже самым продвинутые модели остаются талантливыми, но узкими специалистами. Их развитие упирается в сложности обучения: стоимость сборов траекторий, закрытые датасеты и портирование навыков между разными моделями. 

Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. А параллельно — аспирант в Лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Вместе с коллегами по лаборатории мы описали способ обойтись без многомесячных записей движений и сложных симуляций, опираясь на уже существующие VLA-модели и модульный агентный подход, позволяющий генерировать будущие действия робота прямо из картинки и текста, проверять их, править, повторять и в итоге добиваться результата, сравнимого со специализированными решениями. В этом материале я разберу архитектуру PhysicalAgent, покажу, как мы реализовали цикл Perceive → Plan → Reason → Act для роботов, и расскажу, чем нам помогли открытые видеомодели и как этот подход помогает переносить навыки между разными платформами.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro