HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах

02.10.2025 08:19:54 | Хабр

Хабы: Блог компании AIRI, Natural Language Processing, Машинное обучение, Искусственный интеллект, Программирование

Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.

Мы прогнали через него 25 открытых и проприетарных LLM и выявили существенные различия в производительности, редко наблюдаемые в традиционных бенчмарках для анализа логических рассуждений. Другая особенность нашей работы в том, что новый бенчмарк вырос из небольшого студенческого проекта на летней школе AIRI.

Подробнее об этом и технических деталях — читайте в нашей статье.

Читать далее

Подробнее

Читайте также

Как я купил Lenovo Thinkpad и начал понимать что такое настоящее терпение
02.10.2025 08:16:07 | Хабр

Microsoft Edge получит защиту от вредоносов под видом расширений
02.10.2025 08:15:00 | ferra.ru

Как дизайнеры совершенствуют проектные процессы в Авито с помощью матрицы DACI
02.10.2025 08:11:06 | Хабр

Топ-10 нейросетей для бизнеса в 2025 году: от обработки данных до создания контента
02.10.2025 08:05:04 | Хабр

Суд передал в доход государства бизнес KDV — владельца брендов Calve, «Яшкино» и «Кириешки»
02.10.2025 08:04:15 | vc.ru

Искусственный интеллект для начинающих: как всё устроено
02.10.2025 08:00:05 | Хабр

Пресс-форма – когда она НЕ нужна
02.10.2025 07:58:38 | Хабр

Xbox Cloud Gaming вышел из беты и получил поддержку 1440p-разрешения
02.10.2025 07:57:44 | ferra.ru

Что должен знать и уметь Разработчик Автоматического Тестирования, чтобы называться Инженером
02.10.2025 07:57:04 | Хабр

Game Pass станет дороже: Microsoft вводит новые уровни подписки с разным наполнением
02.10.2025 07:50:44 | ferra.ru

Игроки потребовали от Valve пересмотра несправедливо высоких региональных цен в Steam
02.10.2025 07:43:42 | ferra.ru

День 1317: на границе России и Казахстана очереди с грузами из Китая, продавцы авиабилетов пожаловались в ФАС на «Сирену-Трэвел»
02.10.2025 07:42:23 | vc.ru

Scala Digest. Выпуск 33
02.10.2025 07:42:02 | Хабр

«Мы думали, это займет три дня»: как сократить разрыв между бизнесом и IT
02.10.2025 07:38:00 | Хабр

В России представили первого роботизированного массажиста «Роден»
02.10.2025 07:36:42 | ferra.ru

Конструирование времени: заметки о настоящем, кайросе, прошлом, будущем и психике
02.10.2025 07:34:46 | Хабр

Как КЭДО спасает удалённые команды от бумажной рутины: наш опыт за четыре года
02.10.2025 07:30:27 | Хабр

Нож будущего: представлен ультразвуковой кухонный гаджет, вибрирующий 40 000 раз в секунду
02.10.2025 07:29:40 | ferra.ru

Масштабируемость под нагрузкой: как 400 RPS раскрывают потенциал B2B системы
02.10.2025 07:23:25 | Хабр

GSMArena после обзора iPhone 17 Pro: новинка впечатлит владельцев iPhone 14 Pro и старее
02.10.2025 07:22:41 | ferra.ru

Code Review с помощью ИИ: замена лиду или помощь стажёру?
02.10.2025 07:21:45 | Хабр

ComputerBase назвал Galaxy Tab S11 одним из лучших Android-планшетов после обзора новинки
02.10.2025 07:15:40 | ferra.ru

В графическом драйвере NVIDIA 581.42 нашли критический баг — компания выпустила хотфикс
02.10.2025 07:08:40 | ferra.ru

Chrome захватил рекордные 71,9% рынка браузеров, оставив конкурентов далеко позади
02.10.2025 07:01:39 | ferra.ru

Ловим ошибки в диалогах поддержки с помощью LLM: опыт команды Yandex Crowd
02.10.2025 07:00:31 | Хабр

Нормированные пространства и рендеринг трёхмерных фрактальных множеств: ray marching, поле расстояний, базовые примеры
02.10.2025 06:37:01 | Хабр

Как заткнуть внутреннего критика и получить отличный результат проще и быстрее?
02.10.2025 06:27:20 | Хабр

Автостопом по галактике рисков или как минимизировать риски в международных проектах
02.10.2025 06:16:31 | Хабр

URLPattern API как «роутер без фреймворка» (браузер + Node 24)
02.10.2025 06:12:28 | Хабр

Ищу слитые в опен сорс токены ботов
02.10.2025 06:04:18 | Хабр

Культура экономии в IT: как вовлечь команды в управление облачными расходами
02.10.2025 05:53:08 | Хабр

Тестирование – залог предсказуемости и качества (часть 1)
02.10.2025 05:40:21 | Хабр

Как за 4 месяца вкатиться в Российское багбаунти
02.10.2025 05:36:19 | Хабр

Важность масштабирования Kaspersky Security Center
02.10.2025 05:08:16 | Хабр

14 фишек Zoom для повседневной работы и бизнеса
02.10.2025 05:06:13 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Трамп: США пока не планируют вводить войска в Иран
09.03.2026 20:42:03 | Life.ru

ABC News: В США разослано предупреждение о возможной активации "спящих ячеек"
09.03.2026 20:42:00 | Российская Газета

Кувейт повторно вызвал посла Ирана и вручил ноту протеста из-за ударов
09.03.2026 20:39:15 | Life.ru

Выпавшего с седьмого этажа мальчика в Петербурге перевели из реанимации в палату
09.03.2026 20:37:48 | Life.ru

Эрдоган заявил о необходимости новых переговоров по урегулированию кризиса вокруг Ирана
09.03.2026 20:37:11 | ТАСС

NBC: Трамп не исключил возможности захвата иранской нефти
09.03.2026 20:36:30 | ТАСС

В Турции прокомментировали мирные переговоры по Украине 11 марта
09.03.2026 20:36:00 | Lenta.ru

ВСУ атаковали дронами брянский посёлок Белая Берёзка
09.03.2026 20:34:53 | Life.ru

Мерц возложил ответственность за продолжение ближневосточного конфликта на Иран
09.03.2026 20:34:10 | ТАСС

В Турции начался суд над экс-мэром Стамбула Имамоглу, ему грозит 2352 лет тюрьмы
09.03.2026 20:31:19 | Life.ru

Сийярто допустил, что в Венгрии арестованы деньги украинской оружейной мафии
09.03.2026 20:30:00 | Российская Газета

США готовы заключить с Мали соглашение о возобновлении разведывательных операций
09.03.2026 20:30:00 | ТАСС

В Мексике осудили односторонние торговые меры США
09.03.2026 20:29:52 | ТАСС

NTV: МИД Турции вызвал посла Ирана в Анкаре из-за ракетной атаки ее территории
09.03.2026 20:29:37 | ТАСС

Трехстороннюю встречу по Украине отложили
09.03.2026 20:29:30 | Lenta.ru

Иран начал новую волну ракетных ударов по Израилю
09.03.2026 20:29:05 | Life.ru

Hart van Nederland: жители Нидерландов массово едут в Бельгию за дешевым топливом
09.03.2026 20:27:50 | ТАСС

Задержанным в Венгрии украинским инкассаторам запретили въезд в Шенгенскую зону
09.03.2026 20:25:47 | ТАСС

Принятие мер по восстановлению энергетики Киева отложили
09.03.2026 20:25:30 | ТАСС

На Украине завели дело против людей, отбивших мобилизованного у ТЦК
09.03.2026 20:25:09 | ТАСС

Минфин Японии: G7 обсуждают скоординированное задействование резервов нефти
09.03.2026 20:24:51 | ТАСС

Макрон «на Пафосе» объявил, что намерен деблокировать Ормузский пролив, но потом
09.03.2026 20:24:51 | Life.ru

«Локомотив» и «Ахмат» разошлись с миром в матче 20-го тура РПЛ
09.03.2026 20:23:00 | Life.ru

Bloomberg: планы Мерца сталкиваются с трудностями из-за проигрыша на выборах
09.03.2026 20:22:45 | ТАСС

Экс-президента Франции снова отправят за решетку
09.03.2026 20:20:06 | Lenta.ru

В Ростовской области в ДТП на трассе погибли три человека
09.03.2026 20:19:59 | ТАСС

Зеленский подписал закон об отсрочке контрактников от мобилизации на год
09.03.2026 20:19:36 | Life.ru

В ООН указали на важность свободы навигации в Ормузском проливе
09.03.2026 20:17:16 | ТАСС

Кабмин Украины начал принимать меры из-за роста цен на топливо
09.03.2026 20:14:07 | ТАСС

Директор Дома русской культуры в Набатии: у Израиля не было оснований для удара
09.03.2026 20:11:40 | ТАСС

Директор Русского дома в Набатии заявил, что оснований для атаки не было
09.03.2026 20:11:40 | ТАСС

Лукашенко пригласил трудолюбивых мигрантов в Белоруссию
09.03.2026 20:11:38 | Life.ru

Путин: Россия продолжит поставки нефти и газа в Словакию и Венгрию
09.03.2026 20:04:50 | Life.ru

В Зеленограде при пожаре в жилом доме погибли два человека
09.03.2026 20:04:28 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro