Операция выполнена!
Закрыть

Xiaomi представила свою первую крупномасштабную робототехническую модель Xiaomi-Robotics-0 с открытым исходным кодом.

Система на 4,7 млрд параметров построена по принципу (VLA, vision-language-action) и объединяет визуальное восприятие, понимание языка и выполнение действий в реальном времени — то, что компания называет основой «физического интеллекта». По данным Xiaomi, модель показывает рекордные результаты как в симуляциях, так и в реальных экспериментах.

Фото Xiaomi 

Архитектура Mixture-of-Transformers разделяет задачи между двумя блоками. Модель визуального языка VLM отвечает за интерпретацию инструкций и пространственное понимание сцены. Второй компонент — это то, что Xiaomi называет Action Expert. Вместо того чтобы воспроизводить одно действие за раз, он генерирует так называемый «блок действия» — последовательность движений — используя методы согласования потоков для обеспечения точности и плавности движений.

Совместное обучение на мультимодальных и моторных данных позволило сохранить способность к рассуждению при освоении физических действий.

Robotics-0 продемонстрировала высокие показатели в тестах LIBERO, CALVIN и SimplerEnv, а также успешно справилась с практическими задачами на двурукой платформе — от складывания полотенец до работы с блоками.

Для снижения задержек используется асинхронный вывод и механизмы стабилизации движений, что делает поведение робота более плавным и устойчивым к изменениям окружающей среды.  

Читайте также
ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro