
Учёные давно надеются полностью замкнуть цикл, создав ИИ-агентов, которые рекурсивно улучшают себя. Новое исследование демонстрирует впечатляющий пример такой системы.
«Это хорошая работа», — сказал Юрген Шмидхубер, учёный-компьютерщик из Университета науки и технологий имени короля Абдуллы (KAUST) в Саудовской Аравии, не принимавший участия в новом исследовании. «Я думаю, для многих людей результаты являются неожиданными. Поскольку я работаю над этой темой уже почти 40 лет, для меня это, возможно, немного менее удивительно».
В 2003 году Шмидхубер создал решатели задач, которые переписывали свой собственный код только в том случае, если они могли формально доказать полезность обновлений. Он назвал их машинами Гёделя, в честь Курта Гёделя, математика, работавшего над самоссылающимися системами. Но для сложных агентов доказуемая полезность достигается нелегко.
Новые системы, описанные в недавнем исследовании, полагаются на эмпирические доказательства. В знак уважения к Шмидхуберу они называются машинами Дарвина-Гёделя (ДГМ). ДГМ начинается с кодирующего агента, который может читать, писать и выполнять код, используя LLM для чтения и записи. Затем он применяет эволюционный алгоритм для создания множества новых агентов. На каждой итерации ДГМ выбирает одного агента из популяции и поручает LLM создать одно изменение для улучшения способности агента к написанию кода. LLM обладают чем-то вроде интуиции о том, что может помочь, потому что они обучаются на большом количестве кода, написанного человеком. В результате получается управляемая эволюция, что-то среднее между случайной мутацией и доказуемо полезным улучшением. Затем ДГМ тестирует нового агента на эталонном коде, оценивая его способность решать задачи программирования.

Некоторые эволюционные алгоритмы сохраняют только лучших исполнителей в популяции, исходя из предположения, что прогресс движется бесконечно вперёд. ДГМ, однако, сохраняют всех, на случай, если инновация, которая изначально потерпела неудачу, на самом деле станет ключом к прорыву позже, после дальнейшей доработки. Это форма «открытого исследования», не закрывающего путей к прогрессу (ДГМ всё же отдают приоритет агентам с более высокими баллами при выборе предков).
Учёные запустили ДГМ на 80 итераций, используя эталонный код SWE-bench, и на 80 итераций, используя эталонный код Polyglot. Баллы агентов улучшились на SWE-bench с 20% до 50%, а на Polyglot — с 14% до 31%.
«Мы были действительно очень удивлены, что агент мог сам написать такой сложный код», — сказала Дженни Чжан, учёный из Университета Британской Колумбии и ведущий автор статьи. «Он мог редактировать несколько файлов, создавать новые файлы и создавать действительно сложные системы». Важно, что ДГМ превзошли альтернативный метод, который использовал внешнюю систему для улучшения агентов. С ДГМ улучшения агентов накапливались по мере того, как они улучшали себя в улучшении себя. ДГМ также превзошли версию, которая не поддерживала популяцию агентов и просто модифицировала последнего агента. Лучший агент SWE-bench был не так хорош, как лучший агент, разработанный людьми, который набрал около 70%, но он был сгенерирован автоматически, и, возможно, с достаточным временем и вычислительными мощностями агент сможет превзойти человеческую экспертизу.
Агенты могут стать неинтерпретируемыми или перестать следовать указаниям человека. Поэтому Чжан и её коллеги добавили ограждения. Они держали ДГМ в песочницах без доступа к Интернету или операционной системе и регистрировали и проверяли все изменения кода. Они предполагают, что в будущем продолжат исследование с вознаграждением агентов за то, что они делают себя более интерпретируемыми и согласованными.
-
28.06.2025 23:55:00 | iXBT.com
28.06.2025 23:49:00 | iXBT.com
28.06.2025 23:00:00 | iXBT.com
28.06.2025 22:38:00 | iXBT.com
28.06.2025 22:13:00 | iXBT.com
28.06.2025 22:00:00 | iXBT.com
28.06.2025 21:40:00 | iXBT.com
28.06.2025 20:58:00 | iXBT.com
28.06.2025 20:58:00 | iXBT.com
28.06.2025 20:50:00 | iXBT.com
28.06.2025 18:45:00 | iXBT.com
28.06.2025 18:39:00 | iXBT.com
28.06.2025 17:16:00 | iXBT.com
28.06.2025 17:15:00 | iXBT.com
28.06.2025 17:06:00 | iXBT.com
28.06.2025 16:59:00 | iXBT.com
28.06.2025 16:52:00 | iXBT.com
28.06.2025 16:52:00 | iXBT.com
28.06.2025 16:31:00 | iXBT.com
28.06.2025 16:09:00 | iXBT.com
28.06.2025 15:51:40 | TechCult.ru
28.06.2025 15:42:00 | iXBT.com
28.06.2025 15:38:00 | iXBT.com
28.06.2025 15:11:00 | iXBT.com
28.06.2025 14:50:00 | iXBT.com
28.06.2025 14:38:00 | iXBT.com
28.06.2025 14:27:00 | iXBT.com
28.06.2025 14:22:00 | iXBT.com
28.06.2025 13:43:00 | iXBT.com
-
29.06.2025 16:41:25 | ferra.ru
29.06.2025 16:38:18 | ferra.ru
29.06.2025 16:20:24 | ferra.ru
29.06.2025 16:15:58 | КИНО-ТЕАТР.РУ
29.06.2025 15:34:56 | ferra.ru
29.06.2025 15:30:57 | КИНО-ТЕАТР.РУ
29.06.2025 15:29:32 | ferra.ru
29.06.2025 15:13:14 | ferra.ru
29.06.2025 14:30:35 | ferra.ru
29.06.2025 14:18:25 | ferra.ru
29.06.2025 14:18:07 | ferra.ru
29.06.2025 14:14:18 | ferra.ru
29.06.2025 14:01:00 | TheVoicemag.ru
29.06.2025 13:56:49 | ferra.ru
29.06.2025 13:56:30 | Хабр
29.06.2025 13:47:18 | ferra.ru
29.06.2025 13:44:27 | vc.ru
29.06.2025 13:34:00 | Woman.ru
29.06.2025 13:28:57 | ferra.ru
29.06.2025 13:23:18 | ferra.ru
29.06.2025 13:15:58 | КИНО-ТЕАТР.РУ
Техническая поддержка проекта ВсеТут