Что, если новые бенчмарки для ИИ станут появляться сами по себе?

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Что, если новые бенчмарки для ИИ станут появляться сами по себе?

11.10.2025 16:01:29 | Хабр

Хабы: Искусственный интеллект, Машинное обучение

ИИ уже хорошо решает сложные задачи, но когда доходит до реальных соревнований и живых проектов, вдруг выясняется — старые подходы к проверке его способностей не работают так гладко, как хотелось бы. Бенчмарки, по которым модели тренируются и друг с другом сравниваются, порой буквально застревают в прошлом: их сложно обновлять, они слишком формальные… а ведь задачи мира куда разнообразнее, чем любые придуманное вручную соревнование.

Но недавно появился неожиданный подход: зачем вручную собирать одни и те же стандартизированные тесты, когда сами наборы данных способны становиться свежими полигонами для ИИ? В исследовании MLE-Smith команда обучила агентов автоматически строить новые, реалистичные задачи прямо на потоке настоящих данных — без участия человека, но с сохранением структуры и смысла.

Почему это важно? Потому что такого рода “фабрики” могут радикально поменять, как мы оцениваем ИИ, и дать ему куда более честное, разнообразное поле для прокачки. В этой статье — как работает эта система, с какими трудностями она сталкивается и почему именно автоматизация бенчмарков может стать следующим шагом для всего ИИ-сообщества.

Читать далее

Подробнее

Читайте также

Dimensity 9400, 6500 мА·ч, 200 Мп: раскрыты характеристики Oppo Reno15 Pro Max
11.10.2025 15:45:53 | ferra.ru

Не используйте продукты Bitrix
11.10.2025 15:45:38 | Хабр

День 1326: из-за новых миграционных правил Латвию покинули 2600 россиян, а 800 человек обязали уехать до 13 октября 2025 года
11.10.2025 15:21:41 | vc.ru

Кетодиета оказалась полезна в защите мозга от Альцгеймера
11.10.2025 15:00:50 | ferra.ru

Криптовалюты оказались зависимы от торговых войн: биткоин рухнул на 10%
11.10.2025 14:57:35 | ferra.ru

ЗАВОД НА ВСЕ 100! КАК ПОЛУЧИТЬ КОНКУРЕНТНОЕ ПРЕИМУЩЕСТВО ЗА СЧЕТ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ ДЛЯ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ
11.10.2025 14:35:13 | Хабр

Nubia представила флагман Z80 Ultra с чипсетом Snapdragon 8 Elite Gen 5
11.10.2025 14:30:16 | ferra.ru

Android-вирус ClayRat маскируется под *WhatsApp и YouTube
11.10.2025 14:24:02 | ferra.ru

Формула идеального промпта для Sora 2 от OpenAI
11.10.2025 14:19:06 | Хабр

Продажам новых китайских автомобилей в России спрогнозировали падение на 25%
11.10.2025 14:15:49 | ferra.ru

Почему Palm 2004 года работает быстрее, чем iPhone?
11.10.2025 14:07:37 | Хабр

SAP UI5 вопросы без ответов
11.10.2025 13:55:35 | Хабр

Microsoft сообщила, что до конца поддержки Windows 11 23H2 осталось 30 дней
11.10.2025 13:54:45 | ferra.ru

Nubia показала дизайн Red Magic 11 Pro с кольцом для водяного охлаждения
11.10.2025 13:46:58 | ferra.ru

Германия не способна просто сбить дроны внутри страны из-за нацистского прошлого
11.10.2025 13:30:48 | ferra.ru

Слух: Samsung будет поставлять в США и Китай смартфоны с более мощным чипсетом
11.10.2025 13:29:27 | ferra.ru

OpenAI начала запугивать сторонников регулирования ИИ судебными исками
11.10.2025 13:17:16 | ferra.ru

161-ФЗ: как работает и попытки выбраться из цифрового концлагеря
11.10.2025 13:01:25 | Хабр

Цифровое право завершает эпоху цифровой вольности и наивной веры в безнаказанность
11.10.2025 13:00:00 | it-world

TorusCSIDH: постквантовый аналог ECDSA с топологическим критерием безопасности
11.10.2025 12:40:37 | Хабр

Bug2Lab превращаем баги с помощью AI в образование в CyberSec
11.10.2025 12:17:53 | Хабр

Давайте поговорим про Web-API
11.10.2025 12:09:24 | Хабр

Экспертная группа США: страна отстает от Китая и России в гиперзвуковом оружии
11.10.2025 12:00:38 | ferra.ru

[Перевод] Как алгоритм Google DeepMind в 100 раз снизил шум в детекторах гравитационных волн и научил LIGO слушать шепот Вселенной
11.10.2025 12:00:13 | Хабр

Grapth Researcher: инструмент для анализа графиков фазово-химического состава
11.10.2025 11:55:08 | Хабр

Как российским властям привлечь на свою сторону IT-шников и прочих интеллектуалов?
11.10.2025 11:38:15 | Хабр

Крипторынок пережил «крупнейшую в истории» ликвидацию позиций в $19,3 млрд после заявления Трампа о новых 100%-ных пошлинах для Китая
11.10.2025 11:27:24 | vc.ru

Что будет, если дать кочевнику огромную бюрократическую империю?
11.10.2025 11:20:05 | Хабр

Новая «наночастичная» вакцина предотвратила до 88% случаев рака
11.10.2025 11:15:34 | ferra.ru

Дуров разослал уведомление о цензуре интернета пользователям Telegram в ЕС
11.10.2025 09:40:47 | ferra.ru

Open source-стратегии [серия: «стартапы»] — кейс консорциума Rudoo и российской компании-разработчика ERP-решений
11.10.2025 09:28:05 | Хабр

[Перевод] Жидкий металл для лучшего приживления искусственных суставов
11.10.2025 09:17:00 | Хабр

Pasta e basta! Как паста и макароны стали национальным блюдом Италии и покорили Россию и США? Часть 4
11.10.2025 09:01:55 | Хабр

K2-18b: почему научная осторожность важнее сенсационных заголовков
11.10.2025 09:00:59 | Хабр

Sora 2 — революция AI‑видео, которую бизнес не может игнорировать
11.10.2025 09:00:53 | Хабр

Смотреть все

СТАТЬ АВТОРОМ

НОВОСТИ

Более 500 тысяч человек вернулись в Газу после перемирия между ХАМАС и Израилем
11.10.2025 22:44:58 | РЕН ТВ

Европейский лидер примет участие в церемонии заключения соглашения по Газе
11.10.2025 22:44:16 | Lenta.ru

В Германии рассказали об «аде» в зоне СВО
11.10.2025 22:44:11 | Lenta.ru

На Западе сообщили о подготовке США ответных мер на ограничения Китая
11.10.2025 22:43:55 | Lenta.ru

TF1: во Франции могут сформировать новое правительство в начале следующей недели
11.10.2025 22:43:48 | ТАСС

В Театре Маяковского состоялась премьера спектакля о Бродском
11.10.2025 22:40:22 | ТАСС

Арифметика войны в Газе
11.10.2025 22:39:01 | РЕН ТВ

Более 500 тысяч жителей Газы вернулись домой
11.10.2025 22:39:00 | Российская Газета

Болельщики устроили протест против Израиля во время футбольного матча
11.10.2025 22:35:43 | Lenta.ru

Куба ответила на обвинения в участии в конфликте на Украине
11.10.2025 22:35:00 | Lenta.ru

Опубликовано видео «дороги смерти» ВСУ возле Покровска
11.10.2025 22:30:47 | Lenta.ru

Трамп приказал выплачивать зарплату американским военным, несмотря на шатдаун
11.10.2025 22:28:00 | Российская Газета

Трамп поручил направить все доступные средства на зарплаты военнослужащим
11.10.2025 22:24:00 | Lenta.ru

Осужденного за педофилию британского рок-вокалиста зарезали в тюрьме
11.10.2025 22:23:57 | РЕН ТВ

Звезда «Крёстного отца» и муза Вуди Аллена Дайан Китон умерла в 79 лет
11.10.2025 22:23:52 | Life.ru

People: умерла актриса Дайан Китон
11.10.2025 22:23:19 | ТАСС

В Белгородской области при падении обломков дрона пострадал мирный житель
11.10.2025 22:19:39 | ТАСС

Скончалась звезда «Крестного отца»
11.10.2025 22:18:00 | Lenta.ru

В Саранске более 90 многоквартирных домов остались без холодной воды
11.10.2025 22:17:32 | ТАСС

МИД Кубы назвал клеветой утверждения об участии страны в конфликте на Украине
11.10.2025 22:17:27 | ТАСС

Россия поможет 800 россиянам, депортированным из Латвии
11.10.2025 22:16:16 | ТАСС

Пакистанские военные погибли при столкновениях на границе с Афганистаном
11.10.2025 22:13:00 | Lenta.ru

NYP: Легенда Голливуда Дайан Китон умерла в возрасте 79 лет
11.10.2025 22:12:00 | Российская Газета

Гладков: В селе Головчино при падении обломков БПЛА пострадал мирный житель
11.10.2025 22:11:10 | Life.ru

Осужденный за педофилию британский певец Уоткинс умер при нападении в тюрьме
11.10.2025 22:10:00 | Российская Газета

Полиция ФРГ задержала человека, открывшего огонь в Гисене
11.10.2025 22:08:26 | ТАСС

Звезда фильма "Крестный отец" Дайан Китон умерла на 80-м году жизни
11.10.2025 22:07:08 | РЕН ТВ

Возможная утечка имени лауреата Нобелевской премии мира связана со шпионажем
11.10.2025 22:07:00 | Российская Газета

Два человека пострадали при взрыве газа в частном доме в Махачкале
11.10.2025 22:06:47 | РЕН ТВ

Россия передала Ирану послание Нетаньяху о незаинтересованности в войне
11.10.2025 22:05:53 | ТАСС

Москва передала Тегерану послание Нетаньяху
11.10.2025 22:05:53 | ТАСС

Мексику накрыло мощное наводнение: уже 37 погибших, тысячи домов под водой
11.10.2025 22:04:40 | Life.ru

Ученые включили три вида тюленей в исчезающий вид из-за изменения климата
11.10.2025 22:03:00 | Российская Газета

У сидящего в тылу командира ВСУ нашли участки площадью в 15 футбольных полей
11.10.2025 22:02:00 | Lenta.ru

У сидящего в тылу командира ВСУ нашли участок площадью в 15 футбольных полей
11.10.2025 22:02:00 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2025 - vsetut.pro