Операция выполнена!
Закрыть
Хабы: Блог компании AIRI, Natural Language Processing, Машинное обучение, Искусственный интеллект, Программирование

Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.

Мы прогнали через него 25 открытых и проприетарных LLM и выявили существенные различия в производительности, редко наблюдаемые в традиционных бенчмарках для анализа логических рассуждений. Другая особенность нашей работы в том, что новый бенчмарк вырос из небольшого студенческого проекта на летней школе AIRI. 

Подробнее об этом и технических деталях — читайте в нашей статье.

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro