Harness Bench: как оценить агентский harness и выбрать связку с моделью

30.06.2026 11:30:03 | Хабр

Хабы: Блог компании red_mad_robot, Natural Language Processing, Python, Open source

Привет! Я Андрей Иванов, NLP-исследователь в R&D-лаборатории red_mad_robot.

Когда мы собираем AI-агента, первым делом выбираем модель под задачу. Но в реальном приложении она не работает в одиночку, ей нужен агентский harness — программная обвязка. Поэтому выбирать приходится не просто модель, а связку «модель + harness».

Чтобы делать этот выбор осознанно, мы создали Harness Bench — открытый фреймворк, который тестирует связки на реальных задачах в одинаковых условиях. В статье расскажу, как он устроен, разберу баги опенсорсных обвязок, которые ломают автоматический прогон, а потом покажу на цифрах, как смена harness влияет на способности одной и той же модели.

Подробнее

Читайте также

Потеря инженерной памяти объекта
30.06.2026 11:29:39 | Хабр

Агенты удаляют файлы, сливают данные и сами себя взламывают: как устроена безопасность ИИ‑систем в 2026 году
30.06.2026 11:19:32 | Хабр

Эволюция similar-рекомендаций: как мы переосмыслили ленту похожих товаров
30.06.2026 11:17:01 | Хабр

Роковая ошибка Германа Грефа: он не боится ИИ
30.06.2026 11:16:22 | Хабр

Замена экрана складного Vivo X Fold 6 обойдется примерно в 560 долларов
30.06.2026 11:15:06 | ferra.ru

Социальная инженерия против подростков: почему «цифровое поколение» разводят чаще пенсионеров
30.06.2026 11:07:23 | Хабр

Как появилось слово ВИДЕОАНАЛИТИКА?
30.06.2026 10:59:59 | Хабр

Рендеринг миллионов динамических связей: O(1) вместо O(N²) (но это не точно)
30.06.2026 10:59:40 | Хабр

Whoosh введёт обязательное обучение правилам езды на самокате для новых пользователей — за его прохождение сервис будет единоразово начислять бонусы для оплаты поездки
30.06.2026 10:57:34 | vc.ru

История о том, как я в Debian машину времени вкрячивал
30.06.2026 10:57:33 | Хабр

Анонимность в интернете, OSINT и цифровой след: почему спрятаться нельзя, но можно усложнить поиск
30.06.2026 10:53:39 | Хабр

Шаблон ТЗ для проектирования REST API: готовый инструмент для аналитика
30.06.2026 10:52:58 | Хабр

Актуальные киберугрозы веб-приложений и инфраструктуры разработки
30.06.2026 10:47:04 | Хабр

Enterprise методы на службе Linux геймеров. Собираем Mesa3D драйвера в Podman
30.06.2026 10:44:32 | Хабр

Кто такие разработчики баз данных и сколько они зарабатывают
30.06.2026 10:42:04 | Хабр

Как мы не обожглись на быстрых ML-экспериментах: опыт с 10% аудитории, холиварами с аналитиками и «лампой для лишая»
30.06.2026 10:38:59 | Хабр

Виртуальные диски MWS Cloud Platform: храним данные легко и блочно
30.06.2026 10:37:48 | Хабр

Базу IMEI мобильных телефонов будут использовать в том числе для блокировки украденных, потерянных или незаконно ввезённых устройств
30.06.2026 10:15:05 | vc.ru

Что думают ТОП-компании при AI-native пересборку команд и оргструктуры на
30.06.2026 09:58:50 | Хабр

Асинхронность NIO и Kotlin — а есть ли связь?
30.06.2026 09:57:39 | Хабр

Дронопорт: что это вообще такое и зачем он нужен бизнесу
30.06.2026 09:57:18 | Хабр

AI-агент — это LLM в цикле на двадцать строк. Сложное начинается дальше
30.06.2026 09:52:09 | Хабр

Система управления проектами+ EasyBI: как мы превратили задачи в метрики, а метрики — в решения
30.06.2026 09:50:40 | Хабр

OpenAI анонсировала контроллер с несколькими кнопками для работы с Codex
30.06.2026 09:48:16 | vc.ru

FinOps на практике. Серия 1: С чего реально начинается реальная экономия на облаке
30.06.2026 09:39:10 | Хабр

Как я за неделю перевела десктоп-парсер на SaaS, потому что Яндекс ввёл платный API
30.06.2026 09:36:22 | Хабр

ИИ-ассистент на базе Hermes Agent в Telegram: для саппорта, семьи, пет-проектов и не только
30.06.2026 09:31:46 | Хабр

Google ограничила доступ Meta* к своим ИИ-моделям
30.06.2026 09:15:05 | ferra.ru

В некоторых российских регионах таксисты стали реже выходить на линию из-за дефицита топлива
30.06.2026 09:12:20 | vc.ru

8000 мА·ч в тонком корпусе за 17 000 рублей: realme C100x появился в России
30.06.2026 09:00:04 | ferra.ru

Kling в России: как оживлять фото без VPN в 2026 году. Полная инструкция
30.06.2026 08:59:22 | Хабр

Маркетинг Гайд — как маркетологу принимать решения на основе данных (Data driven философия)
30.06.2026 08:57:43 | Хабр

Лучшие нейросети для картинок в 2026. Сравнение Midjourney, Qwen, FLUX, Nano Banana, GPT и Grok на одних промптах
30.06.2026 08:56:14 | Хабр

После прочтения сжечь. Как устроен zero-knowledge сервис, где сервер не видит ключ
30.06.2026 08:50:13 | Хабр

ChatGPT -> Codex CLI: как перенести контекст диалога в локальную сессию
30.06.2026 08:47:15 | Хабр

Смотреть все

НОВОСТИ

Россиянка попала в психушку в Таиланде за кражу собачьего корма
30.06.2026 20:57:03 | Life.ru

Le Figaro: В теракте в Монако есть признаки причастности спецслужб Украины
30.06.2026 20:57:00 | Российская Газета

В "Художественном" пройдет ретроспектива фильмов с Брижит Бардо
30.06.2026 20:55:33 | ТАСС

Популярный российский комик попал в неловкую ситуацию из-за внезапной эрекции
30.06.2026 20:54:59 | Lenta.ru

Посольство Германии раскрыло позицию по прямым переговорам России и Украины
30.06.2026 20:54:59 | Lenta.ru

МИД РФ: Москва и Минск обсудили военно-биологическую деятельность США на Украине
30.06.2026 20:54:03 | ТАСС

Сроки жизни и смерти смартфонов объяснили
30.06.2026 20:53:42 | Lenta.ru

В Свердловской области запустили новый дата-центр с высоким уровнем надежности
30.06.2026 20:53:27 | ТАСС

Франция ужесточает правила подачи документов на шенгенские визы для россиян
30.06.2026 20:52:43 | Life.ru

Россия планирует новый бросок на Киев, утверждает главком ВСУ. В Москве в ответ сделали резкое заявление
30.06.2026 20:52:39 | Lenta.ru

Московские аэропорты временно прекратили работу
30.06.2026 20:52:00 | Lenta.ru

Politico: Провал в футболе демонстрирует кризис всей Германии
30.06.2026 20:51:00 | Российская Газета

Ирина Хакамада показала фото в купальнике после вопроса о возрасте
30.06.2026 20:50:29 | Lenta.ru

Восстановлен облик средневековых жителей региона России
30.06.2026 20:50:00 | Lenta.ru

Путин включил Цивилеву в состав президиума Совета по нацпроектам
30.06.2026 20:49:53 | ТАСС

Пламя и дипломатия: Спасателей не пускают тушить здание посольства Израиля на Большой Ордынке
30.06.2026 20:49:01 | Life.ru

Пассажиропоток аэропорта Нальчик за полгода вырос на 33%
30.06.2026 20:48:53 | ТАСС

В Литве объявлена очередная смена караула в правительстве
30.06.2026 20:48:00 | Российская Газета

"Ковентри" продлил контракт с главным тренером Лэмпардом после выхода в АПЛ
30.06.2026 20:47:47 | ТАСС

В Венесуэле спустя шесть дней после землетрясения спасли трехлетнего ребенка
30.06.2026 20:47:00 | Российская Газета

Киевскую квартиру Артемия Лебедева купила компания, производящая БПЛА
30.06.2026 20:45:07 | ТАСС

На Запорожье заявили, что Киев поменял тактику ударов БПЛА по транспорту региона
30.06.2026 20:44:57 | ТАСС

В Донецке начали капремонт гидротехнических сооружений крупного водохранилища
30.06.2026 20:44:54 | ТАСС

Пожар начался возле посольства Израиля в Москве
30.06.2026 20:44:46 | Lenta.ru

FAZ: НАТО не может согласовать сроки оказания помощи Киеву из-за позиции Рима
30.06.2026 20:44:04 | ТАСС

В подконтрольном Киеву Запорожье третий раз за сутки произошли взрывы
30.06.2026 20:42:32 | ТАСС

Россиянам назвали стоящую миллионов ошибку с жильем
30.06.2026 20:41:22 | Lenta.ru

Токаев заявил о начале «капитального ремонта» власти в Казахстане с 1 июля
30.06.2026 20:40:59 | Life.ru

«Хочу к маме»: Школьница из Челябинска сможет вернуться домой спустя 7 месяцев неволи
30.06.2026 20:39:58 | Life.ru

В Словакии второй день подряд фиксируют температурные рекорды
30.06.2026 20:39:38 | ТАСС

Минсельхоз оценил ситуацию с топливом для аграриев
30.06.2026 20:38:48 | Lenta.ru

В Брянской области объявили ракетную опасность
30.06.2026 20:38:34 | ТАСС

Губернатор Дрозденко назвал управляемой ситуацию с топливом в Ленобласти
30.06.2026 20:38:24 | Life.ru

Россияне съездили в командировку в Италию и отдали за перелет почти миллион рублей
30.06.2026 20:36:22 | Lenta.ru

Всемирный банк утвердил грант для строительства Рогунской ГЭС в Таджикистане
30.06.2026 20:35:42 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro