Современные агенты на базе больших языковых моделей (LLM), способные выполнять сложные задачи с помощью инструментов и последовательного рассуждения, всё чаще внедряются в реальные приложения. Однако остаётся малоизученным вопрос: насколько их поведение стабильно при одинаковых входных данных? Это важно для отладки, оценки и надёжности таких систем.
В попытке ответить на этот вопрос проведено систематическое исследование поведенческой согласованности агентов на трёх моделях (Llama 3.1 70B, GPT-4o, Claude Sonnet 4.5) с использованием датасета HotpotQA. Этот набор данных, содержащий вопросы с несколькими вариантами ответа, был собран группой исследователей в области обработки естественного языка из Университета Карнеги-Меллона, Стэнфордского университета и Монреальского университета.
В 3 000 экспериментах (100 задач × 10 запусков × 3 модели) выяснилось: агенты часто выбирают разные последовательности действий даже при идентичных входах. В среднем фиксируется 2,0–4,2 уникальных траектории на 10 запусков, а разброс по количеству шагов достигает 55%.

Ключевой результат — высокая согласованность поведения (≤2 уникальных траектории) приводит к точности 80–92%, тогда как при высокой вариативности (≥6 траекторий) точность падает до 25–60%. Причём 69% расхождений возникают уже на втором шаге — при первом запросе. Длина траектории также коррелирует с точностью: короткие (3 шага) дают 90% правильных ответов, длинные (8+ шагов) — лишь 43%.
Для повышения согласованности предлагается снижать температуру генерации (0.7 → 0.0), что уменьшает число уникальных траекторий и повышает точность на 5,4 процентных пункта. Авторы рекомендуют отслеживать согласованность поведения в реальном времени: если агент начинает путаться с самого начала, то результат с большой вероятностью будет ошибочным. Это открывает путь к автоматическому контролю качества и выбору более надёжных моделей.
Работа подчёркивает: даже при минимальном наборе инструментов агенты демонстрируют значительную вариативность, а с ростом сложности задач проблема только усугубляется. Для практических применений важно не только повышать точность, но и обеспечивать стабильность поведения — это позволит строить более надёжные и предсказуемые системы.
-
Какая-то компания готовит смартфон с крупным 200-мегапиксельным датчиком и новейшей 2-нанометровой SoC. Предположительно, это Redmi K100 Pro Max
04.03.2026 12:16:00 | iXBT.com
Seagate начала поставки HDD объёмом 44 ТБ. Модель Mozaic 4+ содержит 10 пластин
04.03.2026 12:07:00 | iXBT.com
Geely Monjaro и Honda Freed — самые популярные импортные автомобили в России: опубликована статистика ввоза новых и б/у авто в Россию в феврале 2026 года
04.03.2026 12:05:00 | iXBT.com
Новая SoC Snapdragon Wear Elite быстрее старой в пять-семь раз. Qualcomm представила монструозную платформу для умных часов
04.03.2026 11:59:00 | iXBT.com
Контракт с Пентагоном поставил OpenAI в центр политического конфликта в США
04.03.2026 11:53:00 | iXBT.com
Подрядчик Пентагона показал короткое видео секретного истребителя F-47
04.03.2026 11:52:17 | TechCult.ru
Если хочется китайский Tecno, но в стиле Lamborghini. В рамках сотрудничества Tecno представила смартфон, ПК и прочие устройства с дизайном итальянского бренда
04.03.2026 11:47:00 | iXBT.com
Верховный суд США отказался признавать авторские права за искусственным интеллектом
04.03.2026 11:44:00 | iXBT.com
Блогер разобрал Samsung Galaxy Z TriFold и добавил ему аккумулятор от Honor Magic V6, чтобы получить прирост ёмкости более 70%
04.03.2026 11:35:00 | iXBT.com
Маленькая и «непотопляемая». JBL представила портативную колонку Go 5 за 60 доллларов
04.03.2026 11:24:00 | iXBT.com
Астрономы обнаружили самую компактную систему из четырёх звёзд с редкой иерархией 3+1
04.03.2026 10:40:00 | iXBT.com
Самый успешный запуск Samsung за последнее время. Samsung Galaxy S26 готовится побить рекорд Galaxy S25 в Южной Корее
04.03.2026 10:27:00 | iXBT.com
«Прошло всего 6 лет». Li Auto язвительно поздравила Volkswagen с внедрением «устаревшей, крайне неэкологичной» гибридной технологии
04.03.2026 10:10:00 | iXBT.com
Лазерный интернет добрался до геостационарной орбиты: Европа и Китай передали данные со скоростью до 2,6 Гбит/с
04.03.2026 09:43:00 | iXBT.com
Видеокарта с 8-дюймовым экраном MSI RTX 5090D v2 Lightning Edition поступила в продажу в Китае
04.03.2026 09:39:00 | iXBT.com
Стамбул на новой скорости: до 1,6 Тбит/с по оптике без замены волокна
04.03.2026 09:32:00 | iXBT.com
Chery в России — всё. Поставки машин в начале 2026 года обвалились в 100 раз
04.03.2026 09:20:00 | iXBT.com
Новый Zeekr с ДВС суммарной мощностью 1400 л.с. Названы цены Zeekr 8X
04.03.2026 09:12:00 | iXBT.com
В России стартовали предзаказы на Apple MacBook Air и MacBook Pro нового поколения
04.03.2026 09:04:00 | iXBT.com
Xiaomi 17 и Xiaomi 17 Ultra поступили в продажу в России. Гарантия 2 года, бесплатная замена экрана и скидки для первых покупателей
04.03.2026 09:00:00 | iXBT.com
Юницикл на одном шаровом шасси стал настоящим вызовом для инженерии
04.03.2026 08:56:03 | TechCult.ru
Samsung Galaxy S26 Ultra проиграл iPhone 17 Pro Max, Xiaomi 17 Pro Max и OnePlus 15 в новом сравнении времени работы
04.03.2026 08:53:00 | iXBT.com
Настольное зарядное устройство мощностью четверть киловатта. Представлено Anker GaN Desktop Charger Pro+
04.03.2026 08:47:00 | iXBT.com
6,8-дюймовый AMOLED-экран 144 Гц, аккумулятор 6210 мАч, 80 Вт, физические кнопки, активное охлаждение при цене 400 евро. Представлен Nubia Neo 5 GT
04.03.2026 08:42:00 | iXBT.com
OnePlus 15T станет единственным компактным флагманским смартфоном с защитой IP66, IP68, IP69 и IP69K
04.03.2026 08:39:00 | iXBT.com
«Глаза очень быстро устают от Samsung Galaxy S26 Ultra». Экраны Galaxy S26 Ultra и Galaxy S25 Ultra сравнили в России
04.03.2026 08:29:00 | iXBT.com
Samsung Galaxy S26 уже подорожали, Galaxy A37 и Galaxy A57 тоже станут дороже предшественников: раскрыты цены новых моделей Samsung среднего класса
04.03.2026 08:07:00 | iXBT.com
Роботы с ИИ собирают смартфоны Xiaomi с точностью на уровне «продевания нити в иголку»
04.03.2026 07:59:00 | iXBT.com
-
СМИ: Apple попросила Google разместить у себя серверы обновленной Siri
04.03.2026 14:33:21 | ferra.ru
JBL представила компактную недорогую колонку GO 5 с улучшенным Harman звуком
04.03.2026 13:58:24 | ferra.ru
Минфин предложил обязать операторов доставки и маркетплейсы «просвечивать» посылки на наличие запрещённых предметов — РБК
04.03.2026 13:42:36 | vc.ru
«Яндекс» запустил Monium — платформу для мониторинга и управления состоянием ИТ-систем
04.03.2026 12:37:59 | vc.ru
Председатель совета директоров Intel Фрэнк Йири покинет свой пост после 17 лет работы в компании
04.03.2026 12:29:07 | vc.ru
Тестовые задания для фронтендеров 2026: почему мы до сих пор проверяем память, а не инженеров
04.03.2026 11:51:52 | Хабр
Как я написал радар межбиржевых спредов на Python и понял, почему 90% публичных ботов считают прибыль неправильно
04.03.2026 11:46:37 | Хабр
«Меню красивое, но готовить повар не умеет»: резюме теряют ценность на фоне засилья нейрослопа — Business Insider
04.03.2026 11:35:39 | vc.ru
Суверенный интернет: что меняется с 1 марта 2026 года и как это затронет пользователей
04.03.2026 11:23:29 | Хабр
Когда регулятор — лучший продакт: PESTEL-анализ карьеры CPO в российском финтехе (2025–2026)
04.03.2026 11:15:23 | Хабр
Google добавила в смартфоны Pixel десктопный режим рабочего стола при подключении к монитору
04.03.2026 11:05:26 | vc.ru
Слава в истерике отменяет концерты после скандала в Пензе — что говорят ее коллеги
04.03.2026 11:03:28 | Woman.ru
Котлеты пожарские по-лопатински, пошаговый рецепт с фото на 1147 ккал
04.03.2026 11:00:00 | ГАСТРОНОМЪ
Малоизвестная возможность Swift: for case let, о которой не знают многие iOS-разработчики
04.03.2026 10:53:23 | Хабр
Без папы, но с тарологом: Мия Прилучная отметила 10-летие так, что позавидует любая школьница
04.03.2026 10:45:55 | Woman.ru
Стало известно, нужно ли добавлять белок в каждый прием пищи — читать на Gastronom.ru
04.03.2026 10:30:00 | ГАСТРОНОМЪ
Как мы создали топографические карты для пользователей MapMagic. Часть 1: Почему нам понадобились свои карты
04.03.2026 10:16:15 | Хабр
(Не) безопасный дайджест: дыры в облаках, топовая социнженерия и люксовый штраф
04.03.2026 10:13:50 | Хабр
Российский мессенджер MAX замечен в обращении к иностранным сервисам определения IP и серверам конкурентов
04.03.2026 10:12:05 | Хабр
Техническая поддержка проекта ВсеТут