Операция выполнена!
Закрыть
Хабы: Искусственный интеллект

TL;DR: В работе «Reasoning Pattern Matters: Learning to Reason without Human Rationales» авторы показывают, что для шаблонных задач рассуждения (patterned reasoning) ключ к качеству — не объём и не безупречность «рационалей», а явное усвоение шаблона рассуждения. Они демонстрируют это на двух финансовых задачах (NSM и TPC), вводят метрику/анализ «развилочных токенов» и предлагают PARO — способ автоматически генерировать рационали, следуя заранее заданному шаблону. Итог: SFT+RLVR, обученное на 10× меньшем количестве человеческих рационалей или частично «испорченных» рационалях, почти не теряет в качестве; а рационали, сгенерированные PARO, сопоставимы с крупными человеческими наборами.

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro