Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

AI-агент действительно ловит баги? Пусть докажет на бенчмарке

17.05.2026 17:52:02 | Хабр

Хабы: Искусственный интеллект, Качество кода, Тестирование IT-систем, Тестирование веб-сервисов

Привет! Это снова Михаил Федоров. В первой статье — архитектура QA Assist: 11 AI-агентов от декомпозиции требований до готовых автотестов. Во второй — как «4 часа подключения» превращаются в неделю корпоративной реальности. В третьей — почему пирамида тестирования ломается, когда тест-дизайнером работает LLM. Сегодня — про то, как я решил наконец-то перестать оценивать агента «на глаз» и собрал отдельный проект-бенчмарк, на котором можно честно сравнивать прогоны: версии агента, отдельные «улучшалки», даже эксперименты с моделями. В качестве бонуса покажу все артефакты, которые агент готовит за один прогон пайплайна. И бенчмарк, и артефакты — в публичном доступе, ссылки в конце статьи. Обсудить всё это можно в Telegram-группе.

Читать далее

Подробнее

Читайте также

IT-Weekly: волна контрафактных комплектующих; Astra Cloud на российских процессорах
17.05.2026 17:33:40 | it-world

Google ужесточил правила против манипуляций в ИИ-поиске
17.05.2026 17:32:52 | ferra.ru

Создаем клиентскую библиотеку ROS2. Элементы ноды
17.05.2026 17:32:38 | Хабр

День 1544: в Подмосковье временно закрыли ТРЦ «Мега Химки» на фоне сообщений об атаках БПЛА
17.05.2026 17:08:47 | vc.ru

Telegram замедляют, а мы запустили мессенджер с Asana внутри. Без шуток
17.05.2026 17:06:58 | Хабр

AI-агенты в разработке: как Cursor, Claude Code и агентный подход меняют работу программиста
17.05.2026 16:57:23 | Хабр

Ростех покажет на ЦИПР более 30 цифровых решений для промышленности
17.05.2026 16:55:48 | ferra.ru

Резюме как Root Cause Analysis
17.05.2026 16:43:15 | Хабр

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
17.05.2026 16:37:59 | Хабр

GLM-5.1 придумал для меня новый алгоритм
17.05.2026 16:31:52 | Хабр

Обход блокировок на OpenWRT с помощью HomeProxy-hiddify (hiddify-core) и баз GeoIP, Geosite Re:filter
17.05.2026 16:13:53 | Хабр

На ЦИПР покажут криптобиокабину «Портал Родина»
17.05.2026 15:55:49 | ferra.ru

ИИ в строительстве: с чего начать внедрение
17.05.2026 15:19:01 | Хабр

В отместку за увольнение сотрудники Opexus удалили 96 правительственных баз данных США — но забыли закрыть звонок в Teams
17.05.2026 14:56:59 | vc.ru

В Общественной палате предложили привлекать детей к разработке обучающих игр
17.05.2026 14:56:01 | ferra.ru

Немного извращений из мира прокси и VPN
17.05.2026 14:27:36 | Хабр

«Продай мне этот космолёт» или история любви к симуляторам. От космосима X-Tension до ActorModel/DoD/ECS архитектуры. Ч2
17.05.2026 14:26:15 | Хабр

MELT-1: трансформер 7B сдыхает за 11 часов, а наш агент живёт 95
17.05.2026 14:21:58 | Хабр

А что не так с вашими миграциями? Liquibase, rollback и первые тревожные признаки
17.05.2026 14:18:10 | Хабр

Как Vision-Language Models учатся работать с 3D-миром
17.05.2026 14:05:05 | Хабр

Ил-114-300 завершил арктические испытания в условиях Крайнего Севера
17.05.2026 13:55:59 | ferra.ru

Подружитесь со своим ассистентом
17.05.2026 13:53:39 | Хабр

Китайские платформы внедрят ИИ-агентов для изменения онлайн-шопинга
17.05.2026 13:36:50 | ferra.ru

SectorOS: операционная система в пределах 512 байт
17.05.2026 13:32:25 | Хабр

Рабочие способы вывести криптовалюту в рубли в 2026 г
17.05.2026 13:07:37 | Хабр

Гэри «Соло» МакКиннон: взломать Пентагон в поисках НЛО, бесплатной энергии, и чтоб никто не ушёл обиженным
17.05.2026 13:01:55 | Хабр

Работодатели больше не верят резюме
17.05.2026 13:00:00 | it-world

Новичок дороже старожила
17.05.2026 12:55:59 | Хабр

ДОМ.РФ и Москва договорились о сотрудничестве в цифровизации строительства
17.05.2026 12:55:58 | ferra.ru

Пиратство, копирайт и DMCA: как Napster, The Pirate Bay и YouTube изменили закон. Часть I
17.05.2026 12:13:30 | Хабр

Мобильная разработка за неделю #630 (11 — 17 мая)
17.05.2026 12:12:37 | Хабр

Почему мы живем в мире правшей?
17.05.2026 11:57:10 | Хабр

Российские ученые обнаружили региональные генетические мутации у народов Кавказа
17.05.2026 11:55:56 | ferra.ru

Как управлять эволюционным поиском? На примере конечных автоматов
17.05.2026 11:52:38 | Хабр

В России создали экспресс-тест на вредный пластик в товарах
17.05.2026 10:55:55 | ferra.ru

Смотреть все

НОВОСТИ

Главный тренер сборной Египта рассказал о тактике борьбы с Месси
12.07.2026 22:07:50 | Lenta.ru

ВСУ атаковали следовавший в Москву автобус
12.07.2026 22:05:26 | Lenta.ru

Экс-премьера Испании Рахоя обвинили в расистских высказываниях о сборной Франции
12.07.2026 22:04:00 | Российская Газета

Окупились, но без рекордов: "Зловещие мертвецы: Пекло" собрали 27 миллионов долларов на старте
12.07.2026 22:03:34 | PlayGround.ru

Липецкий губернатор рассказал о ситуации с топливом в регионе
12.07.2026 22:00:29 | Lenta.ru

Таинственный золотой символ заполонил Лас-Вегас и вызвал волну слухов
12.07.2026 22:00:02 | Life.ru

Движение транспорта по Крымскому мосту временно перекрыли
12.07.2026 21:59:20 | ТАСС

Янник Синнер во второй раз подряд выиграл Уимблдон
12.07.2026 21:58:13 | ТАСС

Российский губернатор рассказал о новых правилах очереди за бензином
12.07.2026 21:58:00 | Lenta.ru

Российские юниоры забрали 36 медалей на ЧЕ по плаванию в Мюнхене
12.07.2026 21:57:55 | Life.ru

В ЛНР при атаке ВСУ на автобус пострадали два человека
12.07.2026 21:55:22 | ТАСС

WP: Выжившие после удара Ирана военные США обвинили командиров в предательстве
12.07.2026 21:54:00 | Российская Газета

Бывший футболист "Бенфики" Ману погиб в ДТП
12.07.2026 21:53:43 | ТАСС

«Подземная фабрика» не ускоряется: В Институте Карпинского объяснили, зачем беречь нефть
12.07.2026 21:51:39 | Life.ru

В Росавиации рассказали о зарплатах и рабочем графике бортпроводников
12.07.2026 21:51:06 | Life.ru

Принцип Коперника не работает? Новое исследование однородности Вселенной озадачило физиков
12.07.2026 21:50:00 | iXBT.com

Франция заявила о готовности участвовать в развертывании международных сил в Ливане
12.07.2026 21:49:09 | ТАСС

Гутерриш: США и Иран должны срочно возобновить переговоры
12.07.2026 21:49:00 | Российская Газета

Во Франции остановили три атомных реактора из-за жары
12.07.2026 21:47:43 | РБК

Финиш этапа "Тур де Франс" завершился автомобильной аварией на финише
12.07.2026 21:47:10 | ТАСС

Трамп распорядился приспустить флаги из-за смерти Грэма
12.07.2026 21:47:04 | Lenta.ru

В четырёх аэропортах Приволжья сняли ограничения на полёты
12.07.2026 21:46:09 | Life.ru

DHA: 28 туристов госпитализировали с симптомами пищевого отравления в Кушадасы
12.07.2026 21:44:18 | ТАСС

Fars: КСИР уничтожил американские РСЗО HIMARS в Кувейте
12.07.2026 21:42:21 | Life.ru

В Подмосковье энергетики восстанавливают электроснабжение после циклона
12.07.2026 21:40:40 | ТАСС

Около 30 туристов госпитализированы с отравлением на турецком курорте Кушадасы
12.07.2026 21:38:27 | Life.ru

В авиакатастрофе на Багамах погибли музыканты местной группы
12.07.2026 21:37:35 | Коммерсантъ

ČTK: Бабиш отказался консультироваться с президентом по внешней политике
12.07.2026 21:36:44 | ТАСС

Внуково временно принимает и отправляет рейсы по согласованию
12.07.2026 21:36:03 | Life.ru

В США сделали важное заявление о России после смерти Грэма
12.07.2026 21:35:52 | Lenta.ru

В Тамбовской области объявили опасность атаки БПЛА
12.07.2026 21:35:00 | ТАСС

Гроза, град и шквалистый ветер обрушатся на Москву в понедельник
12.07.2026 21:34:37 | Life.ru

Соболев помог «Зениту» обыграть клуб Станковича
12.07.2026 21:34:23 | РБК

В Петербурге теплоход врезался в опору Троицкого моста
12.07.2026 21:33:27 | Life.ru

Индия объявила национальный траур из-за смерти отца эмира Катара
12.07.2026 21:32:00 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro