Бенчмарк конца эпохи

info@vsetut.pro

Стать автором

Вернуться

Бенчмарк конца эпохи — Humanity’s Last Exam

07.12.2025 14:45:13 | Хабр

Хабы: Исследования и прогнозы в IT

Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).

Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.

Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук.

Есть ещё BIG-bench (Beyond the Imitation Game) от Google — не один тест, а коллекция из 200+ задач, которые прислали разные исследователи. Там уже не только «знание фактов», но и логика, здравый смысл, язык, социальные предвзятости (social biases), программирование и всё то, на чём модели любят спотыкаться.

Есть и более «узкие» бенчмарки:

Подробнее

Читайте также

Используем несколько нейронок безопасно и через единый интерфейс. Инструкция по внедрению LiteLLM
07.12.2025 14:44:34 | Хабр

[Перевод] Игры, в которые играет Уолд-Стрит
07.12.2025 14:43:55 | Хабр

Глава Nvidia назвал Huawei одной из сильнейших технологических компаний в истории
07.12.2025 14:15:55 | ferra.ru

Еврокомиссия оштрафовала Twitter (X) на €120 млн
07.12.2025 13:30:34 | ferra.ru

Последние советские экспедиции на станцию «Мир» — ЭО-9 и ЭО-10
07.12.2025 13:20:26 | Хабр

Bug Bounty Минцифры: как найти критическую уязвимость и получить дырку от бублика в награду
07.12.2025 13:15:19 | Хабр

«Спекки» в XXI веке: как я обзавёлся ZX Evolution, и что из этого вышло
07.12.2025 13:01:15 | Хабр

Теоремы Гёделя, Тьюринга и Хайтина – доказательства неалгоритмичности Вселенной и неполноты физических теорий?
07.12.2025 12:58:45 | Хабр

Huawei вошла в топ-5 мирового рынка планшетов
07.12.2025 12:45:30 | ferra.ru

Дайджест игровых новостей на 7 декабря: «Похудение» Helldivers 2, Зимняя распродажа, релиз Routine и др
07.12.2025 12:25:21 | Хабр

Я задолбался читать про АИ
07.12.2025 12:16:02 | Хабр

ИИ доверили оцифровку коллекций естественной истории
07.12.2025 12:00:25 | ferra.ru

[Перевод] «Мне стало жутко»: Писательница задала ChatGPT один вопрос и пожалела об этом
07.12.2025 11:28:17 | Хабр

Миска рис и русский авось
07.12.2025 11:20:56 | Хабр

Программатор ROM на Arduino за вечер
07.12.2025 11:15:50 | Хабр

Оригинальная версия «Звёздных войн» 1977 года вернётся в кино в 2027-м
07.12.2025 11:15:17 | ferra.ru

Изоморфные схемы
07.12.2025 11:00:48 | Хабр

Kubernetes с GPU в WSL за вечер: рабочий кластер на Windows
07.12.2025 10:45:45 | Хабр

Ортодоксально Каноническая Прошивка (ОКФП)
07.12.2025 10:37:38 | Хабр

Обзор препринтов научных статей в области астрофизики за ноябрь 2025 года
07.12.2025 10:30:56 | Хабр

Шаблон проектирования Buffer
07.12.2025 10:16:33 | Хабр

Hugging Face Skills: AI агенты теперь сами обучают LLM
07.12.2025 09:33:15 | Хабр

Вайб-ЛЛМинг. AI агенты теперь сами обучают LLM с помощью Hugging Face Skills
07.12.2025 09:33:15 | Хабр

Эйджизм в IT: бороться нельзя скрывать
07.12.2025 09:16:17 | Хабр

Как через Яндекс Маркет пиратские лицензии продают
07.12.2025 09:14:06 | Хабр

[Перевод] Несколько анекдотичных эпизодов из моей юности и ранней карьеры
07.12.2025 09:02:01 | Хабр

В серии Galaxy S26 появится полноценная беспроводная зарядка Qi2, — инсайдеры
07.12.2025 09:00:00 | ferra.ru

Userbot + ИИ: За гранью парсинга, как Telegram-юзербот и нейросеть помогают искать тренды и боли
07.12.2025 08:49:29 | Хабр

Реальный кейс настройки Pod Autoscaling в k8s с точки зрения разработчика
07.12.2025 08:33:56 | Хабр

Пагинация в PostgreSQL: ROW_NUMBER убивает производительность
07.12.2025 08:17:22 | Хабр

Создание браузерного расширения с native messaging на C#
07.12.2025 08:15:49 | Хабр

HONOR начала обновление прошивки с ИИ-функциями для серии Magic 8
07.12.2025 08:15:00 | ferra.ru

[Перевод] Как работают современные браузеры. Часть 1
07.12.2025 08:05:47 | Хабр

Настройка VPS своими руками: Docker + Nginx + SSL
07.12.2025 08:03:07 | Хабр

Автоматизация обновления компонентов АРМ на рабочих станциях
07.12.2025 08:02:37 | Хабр

Смотреть все

НОВОСТИ

Эффективность популярной меры защиты против «схемы Долиной» оценили
13.04.2026 20:17:19 | Lenta.ru

Небензя указал на превращение выборов в ЕС в "полигон" для политтехнологий
13.04.2026 20:14:43 | ТАСС

Кремль констатирует, что переговоры США и Ирана пока окончились безрезультатно
13.04.2026 20:14:29 | ТАСС

Трамп рассказал о желании Ирана заключить сделку
13.04.2026 20:14:25 | Lenta.ru

Россиянки описали жизнь на Черном море словами «лечение побережьем оказалось иллюзией»
13.04.2026 20:14:18 | Lenta.ru

Разработчик огнестойкой ткани попал на 86 млн за видимость работы без результата
13.04.2026 20:13:50 | Life.ru

Песков: что значит обещанная США блокада Ормузского пролива, пока непонятно
13.04.2026 20:13:35 | ТАСС

В Перми открылась вторая площадка Краевой инженерной школы
13.04.2026 20:11:44 | ТАСС

Авианосец США Abraham Lincoln вошёл в Оманский залив у берегов Ирана
13.04.2026 20:11:20 | Life.ru

В США начались съемки «Мистера и миссис Смит» с российским актером в главной роли
13.04.2026 20:10:30 | Lenta.ru

ТАСС: Фидан обсудил с Лавровым усилия по прекращению конфликта вокруг Ирана
13.04.2026 20:10:10 | ТАСС

Небензя указал на лицемерие ЕС и его роль в разжигании конфликта на Украине
13.04.2026 20:08:54 | ТАСС

Подмосковье предупредили о заморозках
13.04.2026 20:08:04 | Lenta.ru

24 Heures au Benin: кандидат на выборах президента в Бенине Ункпе признал поражение
13.04.2026 20:07:46 | ТАСС

В Псковской области откроется первый маршрут по местам памяти жертв геноцида
13.04.2026 20:07:38 | ТАСС

Игроки нашли необычный способ побеждать боссов в Crimson Desert - с помощью роя пчёл
13.04.2026 20:07:29 | PlayGround.ru

Украина представила модификацию «Паляницы»
13.04.2026 20:07:03 | Lenta.ru

Fox: ФБР обыскало жилье подозреваемого в нападении на дом главы OpenAI
13.04.2026 20:06:50 | ТАСС

Президент Ливана: переговоры в США приведут к соглашению о прекращении огня с Израилем
13.04.2026 20:05:52 | ТАСС

В России первый пациент получил онковакцину от колоректального рака
13.04.2026 20:05:22 | Lenta.ru

Microsoft объяснила причину отключения телефонной активации Windows 11 и Windows 10
13.04.2026 20:05:05 | PlayGround.ru

Названы находящиеся в опасности регионы России
13.04.2026 20:04:25 | Lenta.ru

Разработчики SPINE анонсировали "Полноконтактную неделю": с 13 по 19 апреля они будут делиться материалами об игре
13.04.2026 20:04:00 | PlayGround.ru

Адвокат напавшего на учителя пермской школы подростка подала жалобу на его арест
13.04.2026 20:03:40 | Life.ru

Дмитриев: прогноз роста цен на нефть в ЕС сбывается из-за кризиса
13.04.2026 20:03:30 | ТАСС

От кабинетов к камерам. Кого из высокопоставленных чиновников осудили за убийство
13.04.2026 20:02:15 | ТАСС

В зоопарке Берлина устроили сюрприз самой старой горилле в мире
13.04.2026 20:02:00 | Российская Газета

Цивилев заявил, что России невыгодны скачки цен на нефть
13.04.2026 20:00:23 | ТАСС

Победители конкурса дизайнеров донецкой недели моды получат по 200 тыс. рублей
13.04.2026 19:59:18 | ТАСС

В России резко подорожали лифты
13.04.2026 19:58:41 | Lenta.ru

В России стартовали продажи телевизора Samsung Micro RGB за 2.99 млн рублей
13.04.2026 19:58:36 | PlayGround.ru

Трамп объявил о начале блокады Ормузского пролива
13.04.2026 19:57:54 | Lenta.ru

Жители Константиновки начали показывать украинским военным русскую символику
13.04.2026 19:57:35 | Lenta.ru

Иран не отказался от ядерного оружия
13.04.2026 19:56:58 | Lenta.ru

Продюсер оценил идею передачи песен Пугачевой уважаемым артистам
13.04.2026 19:56:39 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro