Как мы собираем SWE-bench на других языках

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Как мы собираем SWE-bench на других языках

15.04.2025 19:08:02 | Хабр

Хабы: Блог компании Doubletapp, Машинное обучение, Natural Language Processing, GitHub, Open source

Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python.

Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в Doubletapp взялась за адаптацию SWE-bench для множества языков программирования. Меня зовут Кирилл Увенс, и в этой статье я расскажу, как мы подходим к этой задаче и почему считаем ее важной для всей индустрии.

В статье расскажем:

• Что такое SWE-Bench
• Какие сложности возникают при сборе данных и тестировании
• Наш опыт: какие языки поддерживает SWE-bench
• Ручная перепроверка, или SWE-bench Verified
• Сравниваем SWE-bench с другими бенчмарками для разработки ПО
• Ценообразование SWE-bench: как формируется стоимость одного датапойнта

Читать далее

Подробнее

Читайте также

Как тестировать промпты и чейны (Ручная разметка/BERTScore/LLM as judge)
15.04.2025 18:54:46 | Хабр

Как скачать песни с «Яндекс Музыки»: 3 простых способа
15.04.2025 18:52:54 | vc.ru

Американская стартап-компания запустит первый спутник связи для Тайваня
15.04.2025 18:45:38 | ferra.ru

Скорая помощь: как быстро снять стресс, эмоциональное напряжение и провести профилактику нарушений сна
15.04.2025 18:37:40 | Хабр

Почему лучшие лидеры мастерски расстаются с людьми
15.04.2025 18:34:53 | Хабр

Южная Корея увеличит поддержку полупроводниковой отрасли до $23 млрд
15.04.2025 18:00:34 | ferra.ru

MSSQL: рисуем метрики из Query Store на листинге процедуры
15.04.2025 18:00:14 | Хабр

Роскомнадзор сообщил о первом штрафе для банка за пересылку личных данных в WhatsApp*
15.04.2025 17:42:30 | vc.ru

В России создали экологичный ДНК-препарат против паутинного клеща
15.04.2025 17:37:41 | ferra.ru

[Перевод] Рекомендательная система для вашего каталога научных работ (и не только!)
15.04.2025 17:37:25 | Хабр

«Победа» добавила в правила для пассажиров обязательное использование наушников на борту
15.04.2025 17:25:20 | vc.ru

Как Россия готовится к возвращению западного бизнеса
15.04.2025 17:23:43 | it-world

JBL с душой Зелибобы и другие новинки Алисы от Яндекса
15.04.2025 17:21:53 | it-world

Google запретила устанавливать Android на смартфоны с менее чем 32 ГБ памяти
15.04.2025 17:15:00 | ferra.ru

Вышел Manjaro Linux 25.0 и представлен альфа-выпуск Manjaro Summit
15.04.2025 17:08:51 | it-world

Доступ к SDRAM памяти на FPGA и «множество Мондельброта»
15.04.2025 16:51:16 | Хабр

Альтернативы накрутке опыта
15.04.2025 16:32:07 | Хабр

Ubisoft выпустила для Android и iOS мобильный порт игры Prince of Persia
15.04.2025 16:30:00 | ferra.ru

В Тюмени запустили онлайн-интенсив по ИИ для педагогов и бизнеса
15.04.2025 16:26:02 | ferra.ru

Дизеринг в графике и вычислениях: математическая элегантность сеток с низким разхождением
15.04.2025 16:24:28 | Хабр

Искусственный Интеллект: проверяем предсказания 2012 года и думаем о его (и нашем) будущем
15.04.2025 16:18:16 | Хабр

Три минуты на освоение обработки аудио и видео | Элегантное использование FFmpeg в Rust
15.04.2025 16:16:17 | Хабр

Что это за Linux? Alt K
15.04.2025 15:59:44 | Хабр

Цифра дня: сколько млн раз пользователи установили игру Tanks Blitz в RuStore
15.04.2025 15:51:01 | ferra.ru

HONOR внедрит новые ИИ-функции в смартфоны совместно с Google
15.04.2025 15:47:36 | ferra.ru

Эффективный пакетный инференс моделей. Опыт инженеров VK
15.04.2025 15:47:35 | Хабр

Из приложения Google исчезли настройки «умного» помощника Assistant
15.04.2025 15:45:00 | ferra.ru

Как я создала плагин для Figma с помощью ChatGPT
15.04.2025 15:16:12 | Хабр

Blue Origin впервые с 1963 года запустила в космос полностью женский экипаж
15.04.2025 15:00:00 | ferra.ru

Теория категорий и красота математики
15.04.2025 14:47:13 | Хабр

XML vs Compose, не можете решить?
15.04.2025 14:42:13 | Хабр

Генерация цветовых градиентов для дашбордов Dash и отдельных графиков Plotly
15.04.2025 14:35:32 | Хабр

От квартиры до шлагбаума: «Яндекс» масштабирует «умный дом» на целые ЖК
15.04.2025 14:16:53 | it-world

RAII 2.0: RAII как архитектурный инструмент в C++
15.04.2025 14:16:05 | Хабр

Telegram удалил несколько популярных ботов за «сбор данных»
15.04.2025 14:15:00 | ferra.ru

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

NBC: США ускоряют переброску военных в регион Ближнего Востока
20.03.2026 03:27:55 | Life.ru

В Китае рассказали о сокрушительном преимуществе Ирана перед США
20.03.2026 03:27:45 | Lenta.ru

Слуцкий назвал вето Венгрии и Словакии ударом по «замашкам» фон дер Ляйен
20.03.2026 03:25:34 | Life.ru

Япония не может присоединиться к войне с Ираном из-за конституции страны
20.03.2026 03:23:00 | Российская Газета

Такаити: Япония не может присоединиться к войне с Ираном из-за конституции
20.03.2026 03:23:00 | Российская Газета

В РФ проработают включение в ОМС профессиональной гигиены полости рта детям
20.03.2026 03:17:17 | ТАСС

Самолеты Alaska Airlines и FedEx едва не столкнулись во время посадки в США
20.03.2026 03:17:00 | Российская Газета

В ОАЭ заявили о ликвидации группы, связанной с «Хезболлах» и Ираном
20.03.2026 03:15:09 | Life.ru

Нотариальная палата: россияне отдавали в марте под залог альпак и страусов
20.03.2026 03:14:02 | ТАСС

ВСУ мобилизовали человека с удаленной селезенкой
20.03.2026 03:10:38 | ТАСС

США заявили о блокировке доменов, якобы применявшихся для "психологических операций" Ирана
20.03.2026 03:10:04 | ТАСС

В России назвали причину оставить Зеленского в живых
20.03.2026 03:09:41 | Lenta.ru

Завещаю свои скины и персонажей: Юрист рассказал, можно ли передать по наследству игровой аккаунт
20.03.2026 03:09:41 | Life.ru

Макрон: Франция хочет обсудить в Совбезе ООН защиту кораблей в Ормузском проливе
20.03.2026 03:07:17 | ТАСС

Мерц пригрозил последствиями за решение Венгрии о вето по кредиту для Киева
20.03.2026 03:04:10 | ТАСС

Кошта: лидеры ЕС "не жалели времени" на критику Орбана на саммите ЕС
20.03.2026 03:02:54 | ТАСС

Боец Боцман: ВС РФ уничтожили пункт запуска БПЛА ВСУ, с которого били по мирным
20.03.2026 03:02:29 | ТАСС

Al Hadath: сотрудников посольства США в Багдаде эвакуировали
20.03.2026 03:02:26 | ТАСС

Хозяйку похоронного бюро приговорили к 18 годам тюрьмы за хранение трупов вместо кремации
20.03.2026 03:02:11 | Lenta.ru

Немецкий доброволец ВС РФ заявил о желании получить российское гражданство
20.03.2026 03:01:59 | ТАСС

Минздрав: репродуктивные болезни встречаются часто, тенденции к снижению нет
20.03.2026 03:01:52 | ТАСС

Женщинам с аллергией на сперму подсказали способы наслаждаться сексом
20.03.2026 03:00:34 | Lenta.ru

На Западе задали неудобный вопрос о Зеленском после провала кредита ЕС
20.03.2026 02:59:55 | Lenta.ru

Иран заявил о пяти ракетных залпах по Израилю за час
20.03.2026 02:58:23 | РБК

Премьер Японии заявила, что хочет встретиться с лидером КНДР
20.03.2026 02:58:06 | ТАСС

Госдеп: более 70 тыс. американцев покинули Ближний Восток после ударов по Ирану
20.03.2026 02:56:28 | ТАСС

NBC: США ускоряют переброску более двух тысяч морпехов на Ближний Восток
20.03.2026 02:55:00 | Российская Газета

Fars: КСИР отправил предупреждения подозреваемым в связях с оппозицией гражданам
20.03.2026 02:54:42 | ТАСС

В России впервые утверждён ГОСТ на обувь для врачей
20.03.2026 02:54:30 | Life.ru

В МАМТ состоится премьера оперы Шостаковича "Леди Макбет Мценского уезда"
20.03.2026 02:54:26 | ТАСС

ЕС решил усилить свои морские миссии из-за блокировки Ормузского пролива
20.03.2026 02:50:20 | РБК

Власти США предупреждали о провале операции в Иране
20.03.2026 02:49:22 | Lenta.ru

Kena: Bridge of Spirits для Switch 2 увидит свет 26 марта
20.03.2026 02:49:14 | StopGame

Названы все четвертьфиналисты Лиги Европы и Лиги конференций
20.03.2026 02:48:46 | Life.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro