Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

18.05.2026 05:53:38 | Хабр

Хабы: Data Engineering, Data Mining

Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkeley.
Вот мой конспект. Делюсь с вами, так как бенчмарки теперь не только про науку, но и про безопасность, регуляторику и миллиардные решения о деплое.

* Тирания метрик
Оказывается, любая метрика имеет honey spots, которые модель может хакнуть. Проблема в том, что текущая мета-оценка (корреляция Пирсона) эти точки не показывает. А если метрика становится еще и reward'ом при обучении — могут быть проблемы

* Про долговечность
Бенчмарки действуют только определенный период, и нередко - далеко не 10 лет. Всё насыщается. ImageNet продолжает быть полезным, потому что его используют для 10 разных задач (диффузия, CLIP, zero-shot). А большинство бенчмарков теряют актуальность, но продолжают кочевать по paper'ам еще 5 лет — просто потому, что их удобно цитировать. Это плохая практика.

* Субъективность — везде
Даже в классификации изображений люди расходятся. Две принципиально разные причины: (а) задача плохо задана (underspecification), (б) люди реально думают по-разному. Проблема краудворкинга: если не кэпировать ответы, вы получите не мнение популяции, а мнение Боба, который сделал 80% аннотаций.

* LLM как источник оценки — это очень опасно
Они коррелируют с людьми только на той выборке, на которой их калибровали(!). Модель становится умнее — распределение данных меняется — корреляция падает. А при генерации бенчмарков LLM имеют сильнейший self-bias (даже с независимой метрикой). Единственный корректный подход — заставить модель генерировать примеры, на которых она ошибается

Подробнее

Читайте также

Ego is your limit или как мы сопротивляемся собственному развитию в контексте AI-революции
18.05.2026 05:40:32 | Хабр

8 PoPs по миру за €46/мес: реальная экономика pet privacy-DNS в цифрах
18.05.2026 05:40:28 | Хабр

Как люди использовали биометрию до компьютеров?
18.05.2026 05:00:21 | Хабр

Китае-американский визит десятилетия, а также первый коммерческий пилотируемый меха-робот
18.05.2026 04:50:25 | Хабр

Иллюзия сохранности, или Бэкап, который не спасает
18.05.2026 04:35:34 | Хабр

GEO для Яндекс Нейро: 4 метрики, которые отвечают на главный вопрос «почему меня нет в выдаче»
18.05.2026 04:03:15 | Хабр

Насколько многомерным может быть многомерный точный индекс?
18.05.2026 04:01:15 | Хабр

Wayback Machine как архив IDOR: как временные ссылки перестали быть временными
18.05.2026 04:00:11 | Хабр

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты
18.05.2026 03:44:49 | Хабр

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP
18.05.2026 02:28:45 | Хабр

Qwen3.6 MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений
18.05.2026 02:28:45 | Хабр

15 вещей, которые вы бы не хотели знать о мессенджере MAX: тайная запись звука с микрофона в звонках и много чего еще
18.05.2026 02:12:41 | Хабр

Последовательное иерархическое распределение сумм между получателями. Постановка задачи. Выбор технологий
17.05.2026 22:12:26 | Хабр

Непослушный using
17.05.2026 21:55:13 | Хабр

С заботой о своих: канадская Heinz разрезала форму американской хоккейной команды «на салфетки» и раздала болельщикам на матче
17.05.2026 21:08:44 | vc.ru

Как я загрузил компактную открытую LLM в робота и сказал ему ходить (и хватать)
17.05.2026 21:00:15 | Хабр

Как я загрузил компактную открытую LLM в робота и сказал ему ходить (пока только в симуляции)
17.05.2026 21:00:15 | Хабр

В России предложили создать механизм обмена технологиями с Китаем
17.05.2026 20:55:42 | ferra.ru

Память дала AI-агенту прошлое. Solo Kanban даёт ему настоящее
17.05.2026 20:08:30 | Хабр

Шифрование прикладных данных в .NET — от основ к key chain, ротации и компромиссам поиска
17.05.2026 20:00:42 | Хабр

Мессенджер «Макс» подключат к дистанционному обучению
17.05.2026 19:55:44 | ferra.ru

Производители моторных масел предупредили о возможном дефиците и росте цен на фоне конфликта на Ближнем Востоке — Axios
17.05.2026 19:05:38 | vc.ru

Российские ученые нашли лучшие способы получения косметики из водорослей и грязи
17.05.2026 18:55:45 | ferra.ru

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию
17.05.2026 18:31:08 | Хабр

Российские ученые испытали новые материалы для формы металлургов
17.05.2026 17:55:46 | ferra.ru

Трудности перевода
17.05.2026 17:52:36 | Хабр

AI-агент действительно ловит баги? Пусть докажет на бенчмарке
17.05.2026 17:52:02 | Хабр

IT-Weekly: волна контрафактных комплектующих; Astra Cloud на российских процессорах
17.05.2026 17:33:40 | it-world

Google ужесточил правила против манипуляций в ИИ-поиске
17.05.2026 17:32:52 | ferra.ru

Создаем клиентскую библиотеку ROS2. Элементы ноды
17.05.2026 17:32:38 | Хабр

День 1544: в Подмосковье временно закрыли ТРЦ «Мега Химки» на фоне сообщений об атаках БПЛА
17.05.2026 17:08:47 | vc.ru

Telegram замедляют, а мы запустили мессенджер с Asana внутри. Без шуток
17.05.2026 17:06:58 | Хабр

AI-агенты в разработке: как Cursor, Claude Code и агентный подход меняют работу программиста
17.05.2026 16:57:23 | Хабр

Ростех покажет на ЦИПР более 30 цифровых решений для промышленности
17.05.2026 16:55:48 | ferra.ru

Резюме как Root Cause Analysis
17.05.2026 16:43:15 | Хабр

Смотреть все

НОВОСТИ

На Московский регион обрушился сильный ливень с грозой
11.07.2026 17:37:10 | ТАСС

В 37 департаментах Франции из-за жары объявили красный уровень опасности
11.07.2026 17:35:09 | ТАСС

Русских подал документы на регистрацию кандидатом в губернаторы Ульяновской области
11.07.2026 17:34:10 | ТАСС

Почему нельзя работать без отпуска: советы невролога по восстановлению сил
11.07.2026 17:31:57 | Life.ru

Нарколог предупредил о рисках оказаться в реанимации из-за пива в жару
11.07.2026 17:30:54 | Lenta.ru

«Искандеры» накрыли склады ВСУ в Одессе — над городом поднимается густой дым
11.07.2026 17:30:51 | Life.ru

АПУ обнаружил атлантическую ветвь с высокой температурой в Баренцевом море
11.07.2026 17:30:46 | ТАСС

Блогерша раскрыла причины эмиграции россиян в Мексику
11.07.2026 17:30:41 | Lenta.ru

Пентагон опубликовал новые данные об НЛО
11.07.2026 17:30:27 | Lenta.ru

Захарова прокомментировала антироссийский "бенефис" Стефанчука в Белграде
11.07.2026 17:28:00 | Российская Газета

В Сибири определили победителей окружного этапа игры "Зарница 2.0"
11.07.2026 17:27:26 | ТАСС

Суд в Киеве арестовал военнослужащего полка «Скала» за избиение сослуживцев
11.07.2026 17:26:34 | Life.ru

Шопоголизм связали с низкой самооценкой
11.07.2026 17:25:30 | Lenta.ru

В Татарстане задержали мужчину за публикацию видео последствий атаки БПЛА
11.07.2026 17:25:19 | ТАСС

Прибалтика отвергла заявления о предоставлении Киеву своего неба для атак на РФ
11.07.2026 17:24:24 | Life.ru

Умер телеведущий Дермот Мернэхэн
11.07.2026 17:24:15 | ТАСС

В Риге возложили цветы к памятнику погибшим во время Северной войны
11.07.2026 17:22:10 | ТАСС

Сильный ливень с градом и ветер обрушились на Москву и Подмосковье
11.07.2026 17:21:04 | Life.ru

Мадьяр пригрозил Шуйоку импичментом за отказ подписать поправку
11.07.2026 17:20:22 | Life.ru

Комбат Бизон: ВСУ отказывают в отступлении оставшимся в Константиновке военным
11.07.2026 17:20:21 | ТАСС

Собянин поздравил работников московского транспорта с профессиональным праздником
11.07.2026 17:20:06 | ТАСС

Россию назвали единственным спасательным кругом Европы
11.07.2026 17:19:54 | Lenta.ru

День города 2026 в Москве: Праздник пройдёт в первые выходные сентября
11.07.2026 17:19:00 | Life.ru

Кен Бейтс, купивший «Челси» за 1 фунт, умер в возрасте 94 лет
11.07.2026 17:17:27 | Life.ru

На Украине предрекли исчезновение привычных АЗС с магазинами и кафе
11.07.2026 17:15:37 | Life.ru

Памфилова нашла "потенциальных жениха и невесту" среди кандидатов "Коммунистов России"
11.07.2026 17:14:40 | ТАСС

Африка шокирована смертью игрока сборной ЮАР Адамса
11.07.2026 17:12:00 | Российская Газета

Пентагон обнародовал четвертый блок архивных данных об НЛО
11.07.2026 17:11:26 | ТАСС

В Пермском крае после подтопления домов в ПВР разместили более 20 человек
11.07.2026 17:10:56 | ТАСС

Подозреваемый в шпионаже в пользу РФ итальянец отверг передачу документов
11.07.2026 17:10:31 | ТАСС

Зеленский признал, что система ПВО Украины не смогла перехватить ракеты РФ
11.07.2026 17:07:15 | ТАСС

Стивен Сигал назвал четыре качества Путина, которые его поразили при знакомстве
11.07.2026 17:06:34 | Life.ru

Ким Чен Ын устроил разнос военным за коррупцию и приказал усилить разведку
11.07.2026 17:06:00 | Российская Газета

«Не уберегли»: В Таиланде при загадочных обстоятельствах умер актёр из сериала «Первый отдел» Брейкин
11.07.2026 17:04:40 | Life.ru

В Домоставе у памятника жертвам Волынской резни собрались тысячи людей
11.07.2026 17:03:38 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro