Операция выполнена!
Закрыть

В многоагентных системах, где несколько агентов на базе искусственного интеллекта взаимодействуют в одной среде, часто возникает конкуренция между целями отдельных участников. Это приводит к ситуации, когда каждый агент стремится максимизировать собственную выгоду, что в итоге мешает достижению общего результата. Проблема особенно актуальна для децентрализованных систем, где у каждого агента есть только локальная информация.

Команда Paradigms of Intelligence из Google предложила альтернативу традиционным жёстким алгоритмам координации. Вместо ручного задания правил взаимодействия учёные обучили агентов с помощью метода Predictive Policy Improvement (PPI) в среде с разнообразным пулом противников — как обучающихся, так и статических моделей. Такой подход вынуждает каждого агента адаптироваться к поведению других в реальном времени, используя только историю собственных взаимодействий.

Иллюстрация: Grok

В качестве тестовой задачи использовалась дилемма заключённого (Iterated Prisoner's Dilemma, IPD) — классическая модель из теории игр, иллюстрирующая конфликт между индивидуальной выгодой и коллективным результатом. В ходе экспериментов агенты достигли устойчивой кооперации без необходимости жёстко фиксировать роли или закладывать информацию о внутренней логике соперников.

Ключевым элементом методики стало обучение на смешанном наборе противников с разными стратегиями и параметрами. Это позволило агентам выработать универсальные стратегии, устойчивые к появлению новых партнёров и изменению среды. При этом не требовалось увеличивать объём контекстного окна: агенты учились эффективно использовать уже доступную информацию.

В отличие от популярных фреймворков (например, LangGraph), где разработчик вручную задаёт логику переходов и координации, новый подход Google позволяет добиться кооперации с помощью стандартных алгоритмов обучения с подкреплением (например, GRPO). Роль разработчика смещается от «писателя правил» к архитектору среды обучения, где агенты самостоятельно осваивают полезные и безопасные формы взаимодействия.

Авторы отмечают, что их методика масштабируема и вычислительно эффективна для корпоративных многоагентных систем.

Читайте также
ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro