Операция выполнена!
Закрыть
Хабы: Математика, Машинное обучение

Всем привет! 

Мы опять релизим бенчмарки для русского, в прошлый раз мы зарелизили Shlepa и ruArenahard - автоматические открытые бенчмарки для русского, меряем знание культуры и IF моделей. Арена почти насыщена и используется всеми провайдерами моделей на русском.

Мы посмотрели на хайп ризонинга и решили - а почему не сделать бенчмарк для математики и физики на русском?

 У нас больше года лежат задачки по математике и физики которые не пошли в бенчмарк в прошлом году, давайте соберем простенькую библиотеку чтобы можно было гонять модели и выложим открытый LB для решений.


Изначально была идея собрать еще бенчмарк поверх Демидовича, но реализовать точную сравнивалку ответов  оказалось сложнее ожидаемого - llm ломаются, ast часто лажают на вариантах когда ответ очень сложный, но в конце концов бросили. Возможно сообщество доделает начатую работу. - 

   

Фактически на русском нет открытых современных бенчмарков для математики и ризонинга, поэтому посмотрим что сделано на английском:

Gsm8k - классический бенчмарк от openai, собран из школьных задач требующих от решающего когнитивных способностей, большая часть задач не требует сложных идей, НОДы НОКи, простые уравнения - более чем достаточно

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro