Операция выполнена!
Закрыть
Хабы: Блог компании Doubletapp, Машинное обучение, Natural Language Processing, GitHub, Open source

Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python.

Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в Doubletapp взялась за адаптацию SWE-bench для множества языков программирования. Меня зовут Кирилл Увенс, и в этой статье я расскажу, как мы подходим к этой задаче и почему считаем ее важной для всей индустрии.

В статье расскажем:

Что такое SWE-Bench
Какие сложности возникают при сборе данных и тестировании
Наш опыт: какие языки поддерживает SWE-bench
Ручная перепроверка, или SWE-bench Verified
Сравниваем SWE-bench с другими бенчмарками для разработки ПО
Ценообразование SWE-bench: как формируется стоимость одного датапойнта

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro