Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

03.06.2026 06:42:35 | Хабр

Хабы: Искусственный интеллект, Машинное обучение, Natural Language Processing, Анализ и проектирование систем, Тестирование IT-систем

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.

Например, если success rate упал с 85% до 72%, то само по себе число не объясняет причину деградации. Команда вынуждена гадать, какая часть системы вдруг начала допускать ошибки. Сломался retrieval? Модель хуже начала выбирать инструменты? Контекст загрязняется после нескольких ходов? Или система уперлась в возможности base model? При росте проекта и увеличении сложности кодовой базы, сбои начинают расти мультипликативно – ошибки всех систем начинают перемножаться между собой. В конечном итоге, команда теряет реальный контроль.

Проблему решает внедрение покомпонентных eval. Они дополняют end-to-end метрики, показывая, какой слой AI-агента работает, какой деградировал – и где именно искать причину. То есть внедрение evals помогает получать метрики производительности каждого компонента вашего агента.

Читать далее

Подробнее

Читайте также

Гибридный поиск в RAG: как мы подняли Top-1 с 62% до 88% на базе из 50 000 документов
03.06.2026 06:33:37 | Хабр

Зачем backend разработчику Python, если он не собирается становиться data scientist
03.06.2026 06:33:34 | Хабр

Проблема 3x+1: Задача для школьника, которая сломала величайших математиков
03.06.2026 06:32:44 | Хабр

ИБ умерла? Разбираем Project Glasswing — как ИИ нашёл тысячи 0-day и что это значит для безопасников
03.06.2026 06:01:15 | Хабр

[Перевод] Порт классической программы 3D Movie Maker для Linux
03.06.2026 05:03:59 | Хабр

Какой тул лучше собирает контекст для AI-агента? Сравниваем 21 подход от ripgrep до RAG и LSP
03.06.2026 04:59:56 | Хабр

Как сломался Code Blocks: маленькое расширение, большое неудобство и история про устаревший движок
03.06.2026 04:34:06 | Хабр

Я устал копировать промпты вручную. И собрал 794 проверенных в деле промптов для ваших ИИ агентов
03.06.2026 02:10:21 | Хабр

Пишем ботов без ботов. Нахождения пути с помощью HPA* алгоритма
02.06.2026 22:59:02 | Хабр

Samsung порадует этим летом релизом трех умных часов
02.06.2026 22:36:02 | ferra.ru

Генпрокуратура Флориды подала в суд на главу OpenAI из-за ChatGPT
02.06.2026 22:30:56 | ferra.ru

Агент читает 20 файлов ради одной функции. Лечим это графом кода: CodeGraph vs Graphify и другие невиданные твари
02.06.2026 22:08:37 | Хабр

Почему игровой GUI пишут заново (Ч.1)
02.06.2026 21:16:05 | Хабр

Широкий складной Samsung Galaxy Z Fold 8 сфотографировали в ресторане
02.06.2026 20:36:04 | ferra.ru

Превращаем бухгалтера группы компаний в data-инженера
02.06.2026 20:31:17 | Хабр

Intel показала архитектуру Xe3P для «компьютеров нового поколения»
02.06.2026 20:30:54 | ferra.ru

Рефакторинг и реинжиниринг легаси. Погружаемся глубже
02.06.2026 20:18:48 | Хабр

Недостающее звено при обработке медиа на Go
02.06.2026 20:17:26 | Хабр

Учёные ЮУрГУ: внепечные металлургические шлаки эффективно поглощают углекислый газ
02.06.2026 20:10:00 | ferra.ru

Мой опыт с ИИ в России глазами европейца
02.06.2026 19:59:02 | Хабр

Как сознание вернулось в науку и почему физика больше не может его игнорировать
02.06.2026 19:44:07 | Хабр

Два мажора, один README, одно демо: два почти бесплатных дизайн-ревью
02.06.2026 19:31:34 | Хабр

Академик РАН: человек не должен снимать с себя ответственность в пользу ИИ
02.06.2026 19:25:00 | ferra.ru

Meta* начала тестировать функцию, которая позволит объединять ролики в Instagram* и Facebook* в «серии»
02.06.2026 19:22:34 | vc.ru

Meta* начала тестировать функцию, которая позволит объединять ролики в Instagram* и Facebook* в «сериалы»
02.06.2026 19:22:34 | vc.ru

Какие смартфоны брать, если камера для вас не важна
02.06.2026 18:57:18 | ferra.ru

Как прототип AI-агента на пару дней превратился в систему с дедлайнами, бюджетом токенов и ролями
02.06.2026 18:51:37 | Хабр

Во Франции провели гонку на электромобилях Citroën Ami мощностью 8 л.с.
02.06.2026 18:45:34 | vc.ru

[Перевод] TOON против TRON против JSON, YAML и CSV для LLM-приложений
02.06.2026 18:40:42 | Хабр

Тот самый DOOM
02.06.2026 18:40:34 | Хабр

МВД: мошенники ко Дню России начали рассылать сообщения о фальшивых госвыплатах
02.06.2026 18:40:00 | ferra.ru

Прототип грядущих Google Pixel Watch 5 нашли… на дне океана
02.06.2026 18:36:06 | ferra.ru

Sony выпустит геймерский монитор и джойстик для файтингов в августе
02.06.2026 18:30:51 | ferra.ru

Как добавить кнопку «Спроси о нас у ИИ» (Яндекс Алиса, ChatGPT, Claude и другие)
02.06.2026 18:08:58 | Хабр

«Яндекс» закрыл сделку по продаже «Авто.ру» за 35 млрд рублей — новым владельцем стала «дочка» «Т-Технологий»
02.06.2026 18:00:23 | vc.ru

Смотреть все

НОВОСТИ

В Дагестане спасли двух человек на сапбордах в Каспийском море
13.06.2026 16:00:24 | ТАСС

Миклухо-Маклай-младший вернул собранные предком останки папуасов на родину
13.06.2026 16:00:00 | Российская Газета

МИД Ирана: подписание меморандума об урегулировании конфликта с США не произойдет 14 июня
13.06.2026 15:59:29 | ТАСС

13 человек пострадали в ДТП под Москвой
13.06.2026 15:57:59 | Lenta.ru

Босая девушка вместо президента: Шейнбаум отдала билет на ЧМ юной футболистке и устроила народный праздник
13.06.2026 15:57:58 | Life.ru

ВСУ атаковали транспортный цех ЗАЭС
13.06.2026 15:57:37 | ТАСС

Ребёнок пострадал при детонации взрывного устройства ВСУ под Белгородом
13.06.2026 15:56:02 | Life.ru

Хуснуллин: в Донбассе и Новороссии увеличат финансирование развития дорог
13.06.2026 15:55:52 | ТАСС

Под Волгоградом ребенок пострадал от нападения бездомной собаки
13.06.2026 15:55:41 | ТАСС

Белорусский байдарочник стал лидером Европы на дистанции 1000 метров
13.06.2026 15:55:00 | Российская Газета

В Белом Доме положительно оценили вероятность заключения мира с Ираном
13.06.2026 15:54:44 | РБК

Талибы стянули силы в Кабул и Герат на фоне протестов женщин
13.06.2026 15:53:46 | РБК

Развитие Донбасса и Новороссии и ситуация в зоне СВО. Главное из совещания с Путиным
13.06.2026 15:53:01 | ТАСС

Футболистки «Спартака» обыграли ЦСКА и впервые взяли суперкубок России
13.06.2026 15:51:01 | Life.ru

Ребенок пострадал при детонации взрывного устройства в Белгородской области
13.06.2026 15:50:55 | Коммерсантъ

В МИД высказались о ядерном оружии России в Белоруссии
13.06.2026 15:49:57 | Lenta.ru

В Москве подросток ездил на арендованной другим человеком машине каршеринга
13.06.2026 15:49:35 | ТАСС

С глаз долой! Кошатникам объяснили, как не растерять доверие питомца
13.06.2026 15:49:22 | Life.ru

В Одинцово в ДТП погиб человек
13.06.2026 15:49:19 | ТАСС

Подростки убили 15-летнюю девочку в российском регионе
13.06.2026 15:48:58 | Lenta.ru

Украина ввела санкции против 10 операторов связи и интернет-провайдеров РФ
13.06.2026 15:48:55 | ТАСС

Кадыров сообщил об уничтожении склада боеприпасов ВСУ на константиновском направлении
13.06.2026 15:48:34 | ТАСС

Бойцы ВС РФ "Геранью" поразили цех производства БПЛА ВСУ в Харьковской области
13.06.2026 15:46:02 | ТАСС

ВС РФ поразили цех производства БПЛА ВСУ в районе Чугуева Харьковской области
13.06.2026 15:46:02 | ТАСС

Страна НАТО дважды поднимала в воздух истребители для сопровождения российских самолетов
13.06.2026 15:46:00 | Lenta.ru

«Приедет опергруппа с детектором лжи»: Москвичка со страху перевела аферистам 26 млн рублей
13.06.2026 15:45:19 | Life.ru

Иран объявил дату и место проведения похорон верховного лидера Хаменеи
13.06.2026 15:45:00 | Российская Газета

Яровая: США де-факто признали выводы расследования о биолабораториях на Украине
13.06.2026 15:44:03 | ТАСС

Полиция США задержала двоих подозреваемых в краже экипировки у сборной Англии
13.06.2026 15:43:55 | Life.ru

В Орехово-Зуеве завели дело после осквернения мемориала
13.06.2026 15:42:51 | ТАСС

14‑летнего мальчика убили посреди улицы за пакет с продуктами в Башкирии
13.06.2026 15:42:23 | Life.ru

АТОР назвала среднюю стоимость недельного летнего отдыха за рубежом
13.06.2026 15:41:00 | РБК

Тело утонувшего в Самарской области школьника нашли на глубине 6 метров
13.06.2026 15:40:04 | Life.ru

Макрону и Мерцу предсказали смещение с власти
13.06.2026 15:36:01 | Lenta.ru

В Белгородской области при детонации взрывного устройства ВСУ пострадал ребенок
13.06.2026 15:35:50 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro