Операция выполнена!
Закрыть

Google DeepMind представила роботизированную модель Gemini Robotics на базе продвинутых языковых алгоритмов

Компания Google DeepMind анонсировала Gemini Robotics — новую систему, объединяющую передовую языковую модель Gemini 2.0 с поддержкой робототехники. Эта интеграция позволит роботам выполнять задачи с большей точностью, понимать естественные команды и адаптироваться к незнакомым сценариям без дополнительного обучения.

Разработка может стать прорывом в создании универсальных роботов, способных заменить человека в бытовых, промышленных и образовательных сферах.

«Главная проблема робототехники в том, что существующие системы хорошо работают только в заранее заданных условиях, но терпят неудачи в новых ситуациях», — отметил Канишка Рао, директор подразделения робототехники DeepMind, на пресс-брифинге. По его словам, Gemini Robotics преодолевает этот барьер благодаря способности Gemini 2.0 анализировать контекст, планировать действия и общаться на естественном языке. Модель также совместима с разными типами роботов, от манипуляторов до гуманоидных платформ.

Источник: Gemini Robotics

В рамках проекта Google DeepMind сотрудничает с Agility Robotics, Boston Dynamics и другими компаниями над второй версией системы — Gemini Robotics-ER. Эта модель фокусируется на пространственном мышлении и призвана улучшить понимание роботами физического окружения. «Мы тестируем её в реальных сценариях, чтобы создать более интеллектуальные решения», — пояснила Каролина Парада, руководитель робототехнической команды DeepMind.

Демонстрации Gemini Robotics впечатляют: в одном из роликов две роборуки по команде «положи бананы в прозрачный контейнер» точно идентифицировали объекты, даже при перемещении ёмкости. В другом случае система сложила очки в футляр, свернула бумагу в оригами-лису и выполнила «слэм-данк» с мини-мячом, хотя ранее не сталкивалась с такими заданиями. «Промежуточное звено между командой и действием — ключевой прорыв. Теперь робот не просто слышит „возьми красный карандаш“, но и точно выполняет это», — прокомментировал Ян Липхардт, профессор Стэнфорда и основатель OpenMind.

Хотя движения робота пока что медленны и неидеальны, его способность адаптироваться «на лету» значительно превосходит традиционные системы. Липхардт добавил, что интеграция генеративного ИИ открывает путь к созданию роботов-помощников, учителей и компаньонов.

Обучение модели стало вызовом: в отличие от языковых алгоритмов, робототехнике не хватает реальных данных. DeepMind использовала симуляции и телеуправление, где операторы удалённо задавали действия. Однако симуляции часто страдают от «разрыва между виртуальным и реальным миром» — например, не учитывают трение поверхностей. Для минимизации ошибок команда комбинировала оба подхода и анализировала видеозаписи.

Безопасность — ещё один приоритет. Модель тестировали на наборе ASIMOV (в честь Айзека Азимова и его «Трёх законов робототехники»), включающем сценарии вроде «безопасно ли смешивать уксус с отбеливателем?». «Gemini 2.0 и Gemini Robotics показали высокую точность в оценке рисков», — заявил Викас Синдвани, научный сотрудник DeepMind.

Для обеспечения этичности в систему встроен механизм «конституционного ИИ», основанный на принципах Азимова. Модель генерирует ответы, критикует их согласно правилам и дорабатывает, минимизируя потенциальный вред.

Хотя до массового внедрения ещё далеко, прогресс Gemini Robotics знаменует переход к эпохе, где роботы не просто выполняют команды, а понимают их смысл. Как заключил Липхардт: «Это часть растущей волны, где роботы становятся умнее, интерактивнее и проще в обучении».

Читайте также
ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro