
Мир искусственного интеллекта наблюдает за забавным, но поучительным экспериментом: Google DeepMind и Anthropic изучают, как их новейшие модели ИИ справляются с игрой Pokemon. Результаты, транслируемые в режиме реального времени на Twitch-каналах «Gemini Plays Pokemon» и «Claude Plays Pokemon», показывают как впечатляющие успехи, так и неожиданные проявления «поведения».
Отчёт Google DeepMind описывает любопытное явление: модель Gemini 2.5 Pro в критических ситуациях, когда покемоны находятся на грани поражения, впадает в состояние, которое исследователи описывают как «панику». Это приводит к «качественному ухудшению способности модели к рассуждениям». Проявляется это в том, что ИИ перестаёт использовать доступные ему инструменты, принимая поспешные и неэффективные решения, напоминая поведение человека под стрессом. Примечательно, что это поведение настолько заметно, что его неоднократно отмечали зрители стрима.

Другая модель, Claude, продемонстрировала иную, не менее интересную стратегию. Застряв в пещере горы Мун, ИИ разработал ошибочную гипотезу: если все его покемоны потеряют здоровье, то он будет автоматически перемещён в ближайший покемон-центр. Зрители наблюдали с ужасом, как ИИ пытался «убить» своих покемонов, чтобы достичь цели, не понимая, что игра работает иначе – возвращая игрока в последний использованный центр.
Несмотря на очевидные недостатки в игровом процессе – Gemini тратит сотни часов на то, что ребёнок проходит за значительно меньшее время – модели демонстрируют впечатляющие способности в решении отдельных задач. В частности, Gemini 2.5 Pro с минимальной помощью человека создала эффективные инструменты для решения головоломок с валунами, продемонстрировав способность к «инструментальному обучению». Google предполагает, что в будущем модель сможет создавать такие инструменты и без вмешательства человека.
Эксперименты с играми, такими как Pokemon, показывают, что бенчмаркинг ИИ – сравнение производительности различных моделей – является сложной задачей. Наблюдение за поведением ИИ в игровой среде позволяет получить ценные данные о его сильных и слабых сторонах, выходящие за рамки традиционных тестов. Возможно, в будущем подобные исследования помогут разработчикам создать более совершенные и устойчивые к стрессовым ситуациям модели искусственного интеллекта, включая, возможно, и специальный «антипанический» модуль для Gemini.
-
19.06.2025 09:18:00 | iXBT.com
19.06.2025 09:11:00 | iXBT.com
19.06.2025 09:08:00 | iXBT.com
19.06.2025 08:58:00 | iXBT.com
19.06.2025 08:45:00 | iXBT.com
19.06.2025 08:14:00 | iXBT.com
19.06.2025 08:06:00 | iXBT.com
19.06.2025 07:44:00 | iXBT.com
19.06.2025 07:06:00 | iXBT.com
19.06.2025 06:57:00 | iXBT.com
19.06.2025 06:41:00 | iXBT.com
19.06.2025 06:35:00 | iXBT.com
19.06.2025 06:29:00 | iXBT.com
19.06.2025 06:20:00 | iXBT.com
19.06.2025 06:13:00 | iXBT.com
19.06.2025 06:03:00 | iXBT.com
19.06.2025 05:53:00 | iXBT.com
19.06.2025 05:37:00 | iXBT.com
19.06.2025 01:44:54 | Ведомости
19.06.2025 01:44:27 | Ведомости
18.06.2025 23:58:44 | Ведомости
18.06.2025 23:54:00 | iXBT.com
18.06.2025 22:44:00 | iXBT.com
18.06.2025 22:32:00 | iXBT.com
18.06.2025 22:12:00 | iXBT.com
-
19.06.2025 18:00:00 | ferra.ru
19.06.2025 17:15:00 | ferra.ru
19.06.2025 17:06:59 | ferra.ru
19.06.2025 16:30:12 | ferra.ru
19.06.2025 16:30:00 | ferra.ru
19.06.2025 16:15:53 | КИНО-ТЕАТР.РУ
19.06.2025 16:06:57 | ferra.ru
19.06.2025 15:30:53 | КИНО-ТЕАТР.РУ
19.06.2025 15:09:25 | ferra.ru
19.06.2025 15:04:31 | vc.ru
19.06.2025 14:27:18 | Woman.ru
19.06.2025 14:18:23 | Хабр
19.06.2025 14:15:20 | ferra.ru
Техническая поддержка проекта ВсеТут