Современные агенты на базе больших языковых моделей (LLM), способные выполнять сложные задачи с помощью инструментов и последовательного рассуждения, всё чаще внедряются в реальные приложения. Однако остаётся малоизученным вопрос: насколько их поведение стабильно при одинаковых входных данных? Это важно для отладки, оценки и надёжности таких систем.
В попытке ответить на этот вопрос проведено систематическое исследование поведенческой согласованности агентов на трёх моделях (Llama 3.1 70B, GPT-4o, Claude Sonnet 4.5) с использованием датасета HotpotQA. Этот набор данных, содержащий вопросы с несколькими вариантами ответа, был собран группой исследователей в области обработки естественного языка из Университета Карнеги-Меллона, Стэнфордского университета и Монреальского университета.
В 3 000 экспериментах (100 задач × 10 запусков × 3 модели) выяснилось: агенты часто выбирают разные последовательности действий даже при идентичных входах. В среднем фиксируется 2,0–4,2 уникальных траектории на 10 запусков, а разброс по количеству шагов достигает 55%.

Ключевой результат — высокая согласованность поведения (≤2 уникальных траектории) приводит к точности 80–92%, тогда как при высокой вариативности (≥6 траекторий) точность падает до 25–60%. Причём 69% расхождений возникают уже на втором шаге — при первом запросе. Длина траектории также коррелирует с точностью: короткие (3 шага) дают 90% правильных ответов, длинные (8+ шагов) — лишь 43%.
Для повышения согласованности предлагается снижать температуру генерации (0.7 → 0.0), что уменьшает число уникальных траекторий и повышает точность на 5,4 процентных пункта. Авторы рекомендуют отслеживать согласованность поведения в реальном времени: если агент начинает путаться с самого начала, то результат с большой вероятностью будет ошибочным. Это открывает путь к автоматическому контролю качества и выбору более надёжных моделей.
Работа подчёркивает: даже при минимальном наборе инструментов агенты демонстрируют значительную вариативность, а с ростом сложности задач проблема только усугубляется. Для практических применений важно не только повышать точность, но и обеспечивать стабильность поведения — это позволит строить более надёжные и предсказуемые системы.
-
Какая-то компания готовит смартфон с крупным 200-мегапиксельным датчиком и новейшей 2-нанометровой SoC. Предположительно, это Redmi K100 Pro Max
04.03.2026 12:16:00 | iXBT.com
Seagate начала поставки HDD объёмом 44 ТБ. Модель Mozaic 4+ содержит 10 пластин
04.03.2026 12:07:00 | iXBT.com
Geely Monjaro и Honda Freed — самые популярные импортные автомобили в России: опубликована статистика ввоза новых и б/у авто в Россию в феврале 2026 года
04.03.2026 12:05:00 | iXBT.com
Новая SoC Snapdragon Wear Elite быстрее старой в пять-семь раз. Qualcomm представила монструозную платформу для умных часов
04.03.2026 11:59:00 | iXBT.com
Контракт с Пентагоном поставил OpenAI в центр политического конфликта в США
04.03.2026 11:53:00 | iXBT.com
Подрядчик Пентагона показал короткое видео секретного истребителя F-47
04.03.2026 11:52:17 | TechCult.ru
Если хочется китайский Tecno, но в стиле Lamborghini. В рамках сотрудничества Tecno представила смартфон, ПК и прочие устройства с дизайном итальянского бренда
04.03.2026 11:47:00 | iXBT.com
Верховный суд США отказался признавать авторские права за искусственным интеллектом
04.03.2026 11:44:00 | iXBT.com
Блогер разобрал Samsung Galaxy Z TriFold и добавил ему аккумулятор от Honor Magic V6, чтобы получить прирост ёмкости более 70%
04.03.2026 11:35:00 | iXBT.com
Маленькая и «непотопляемая». JBL представила портативную колонку Go 5 за 60 доллларов
04.03.2026 11:24:00 | iXBT.com
Астрономы обнаружили самую компактную систему из четырёх звёзд с редкой иерархией 3+1
04.03.2026 10:40:00 | iXBT.com
Самый успешный запуск Samsung за последнее время. Samsung Galaxy S26 готовится побить рекорд Galaxy S25 в Южной Корее
04.03.2026 10:27:00 | iXBT.com
«Прошло всего 6 лет». Li Auto язвительно поздравила Volkswagen с внедрением «устаревшей, крайне неэкологичной» гибридной технологии
04.03.2026 10:10:00 | iXBT.com
Лазерный интернет добрался до геостационарной орбиты: Европа и Китай передали данные со скоростью до 2,6 Гбит/с
04.03.2026 09:43:00 | iXBT.com
Видеокарта с 8-дюймовым экраном MSI RTX 5090D v2 Lightning Edition поступила в продажу в Китае
04.03.2026 09:39:00 | iXBT.com
Стамбул на новой скорости: до 1,6 Тбит/с по оптике без замены волокна
04.03.2026 09:32:00 | iXBT.com
Chery в России — всё. Поставки машин в начале 2026 года обвалились в 100 раз
04.03.2026 09:20:00 | iXBT.com
Новый Zeekr с ДВС суммарной мощностью 1400 л.с. Названы цены Zeekr 8X
04.03.2026 09:12:00 | iXBT.com
В России стартовали предзаказы на Apple MacBook Air и MacBook Pro нового поколения
04.03.2026 09:04:00 | iXBT.com
Xiaomi 17 и Xiaomi 17 Ultra поступили в продажу в России. Гарантия 2 года, бесплатная замена экрана и скидки для первых покупателей
04.03.2026 09:00:00 | iXBT.com
Юницикл на одном шаровом шасси стал настоящим вызовом для инженерии
04.03.2026 08:56:03 | TechCult.ru
Samsung Galaxy S26 Ultra проиграл iPhone 17 Pro Max, Xiaomi 17 Pro Max и OnePlus 15 в новом сравнении времени работы
04.03.2026 08:53:00 | iXBT.com
Настольное зарядное устройство мощностью четверть киловатта. Представлено Anker GaN Desktop Charger Pro+
04.03.2026 08:47:00 | iXBT.com
6,8-дюймовый AMOLED-экран 144 Гц, аккумулятор 6210 мАч, 80 Вт, физические кнопки, активное охлаждение при цене 400 евро. Представлен Nubia Neo 5 GT
04.03.2026 08:42:00 | iXBT.com
OnePlus 15T станет единственным компактным флагманским смартфоном с защитой IP66, IP68, IP69 и IP69K
04.03.2026 08:39:00 | iXBT.com
«Глаза очень быстро устают от Samsung Galaxy S26 Ultra». Экраны Galaxy S26 Ultra и Galaxy S25 Ultra сравнили в России
04.03.2026 08:29:00 | iXBT.com
Samsung Galaxy S26 уже подорожали, Galaxy A37 и Galaxy A57 тоже станут дороже предшественников: раскрыты цены новых моделей Samsung среднего класса
04.03.2026 08:07:00 | iXBT.com
Роботы с ИИ собирают смартфоны Xiaomi с точностью на уровне «продевания нити в иголку»
04.03.2026 07:59:00 | iXBT.com
-
OKX выпустила карту для оплаты зарубежных сервисов с кешбэком и процентом на остаток
27.04.2026 13:35:08 | it-world
СМИ: OpenAI работает с Qualcomm и MediaTek над чипами для «ИИ-смартфонов»
27.04.2026 12:55:43 | vc.ru
Банковский сервис X Money, встроенный в соцсеть X, запустят до конца апреля 2026 года — Bloomberg
27.04.2026 12:02:26 | vc.ru
«Интервью с алгоритмом – спросим у ИИ о ваших финансах». Обзор проекта «Финансовый доктор»
27.04.2026 11:10:47 | it-world
С чего начинается Родина для ИИ? Мы строим российскую когнитивную архитектуру
27.04.2026 10:52:49 | Хабр
Онбордили, онбордили, да не доонбордили: как не терять людей после адаптации
27.04.2026 10:42:03 | Хабр
Mode collapse в авто-блоге: четыре пятницы подряд LLM приносила нам один и тот же «спорный вопрос про ИИ»
27.04.2026 10:41:44 | Хабр
Как выбирать площадки для GEO-продвижения: источники как основа роста в ответах нейросетей
27.04.2026 10:41:40 | Хабр
Рерайт текстов в 2026: большой разбор сервисов для редакций от SEO-помоек начала 10-х до мультиагентных систем
27.04.2026 10:38:21 | Хабр
Некоторые правообладатели начали предупреждать зрителей российских онлайн-кинотеатров о вырезанных из фильмов и сериалов сценах
27.04.2026 10:31:30 | vc.ru
Организация производства Информационных систем. Часть 9. Современные подходы
27.04.2026 10:29:58 | Хабр
Ольга Погодина у гроба Алексея Пиманова: «Я воспитаю нашу доченьку так, чтобы тебе понравилось»
27.04.2026 10:18:36 | Woman.ru
Я работал по 12 часов в день и через месяц понял, что проблема была не в часах
27.04.2026 10:13:36 | Хабр
Коммуникабельность, адаптивность и навык выступлений: какие софты помогут вырасти в зарплате на 30%
27.04.2026 10:01:06 | Хабр
Олег Виллард — победитель шоу «Титаны. Битва сезонов»: как мачо со стальным прессом оказался сильнее всех
27.04.2026 09:53:29 | Woman.ru
Российская инфраструктура стала тихой гаванью для киберпреступников. Причем тут Руцентр, Рег.Ру и DDoS-Guard?
27.04.2026 09:49:17 | Хабр
Трекинг объектов с подвижной камеры: когда компьютерное зрение встречается с механикой
27.04.2026 09:40:31 | Хабр
Senior на бумаге, Junior в рантайме: как я тестировал локальные LLM на 120B параметров в Greenfield-проекте
27.04.2026 09:39:28 | Хабр
Общество как уравнение. Доступно ли социально-гуманитарное познание математическому описанию?
27.04.2026 09:39:26 | Хабр
В Москве прощаются с Алексеем Пимановым: Угольников, Малышева, Якубович поддержали вдову
27.04.2026 09:17:47 | Woman.ru
«Т-Банк» добавил для пользователей iPhone возможность бесконтактной оплаты без подключения к интернету
27.04.2026 09:07:34 | vc.ru
5 выступлений Камилы Валиевой, которые доказывают, что она с другой планеты
27.04.2026 09:04:04 | Woman.ru
Pragmata взломали за два дня до релиза. Шесть слоёв защиты Denuvo и как их обходят через гипервизор
27.04.2026 09:00:08 | Хабр
Техническая поддержка проекта ВсеТут