Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

07.06.2025 11:17:59 | Хабр

Хабы: Блог компании Doubletapp, Data Mining, Искусственный интеллект, Машинное обучение, Data Engineering

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей.

Содержание
• Общая информация о датасете
• Стенд для тестирования
• Результаты
• Заключение

Читать далее

Подробнее

Читайте также

Microsoft бесплатно поможет Европе защититься от кибератак
07.06.2025 11:15:37 | ferra.ru

[Перевод] Великое возвращение в офисы… откладывается?
07.06.2025 11:00:10 | Хабр

Неожиданное место для рекламы: как антиспам-бот помог раскрутить мой Telegram-канал
07.06.2025 10:59:04 | Хабр

День 1200: Россия добивается диалога с США о возобновлении прямого авиасообщения, но предложение воспринимают «без энтузиазма»
07.06.2025 10:58:16 | vc.ru

Некоторые игроки получили Nintendo Switch 2 с «дырявым» экраном
07.06.2025 10:30:35 | ferra.ru

Не пузырьком единым. Поговорим об алгоритмах сортировки
07.06.2025 10:29:14 | Хабр

Go-тесты: путь к надежному коду
07.06.2025 10:23:13 | Хабр

Мобильная связь импортозамещается как может
07.06.2025 10:07:30 | it-world

Глава Т-банка назвал математику ключом к профессиям будущего
07.06.2025 10:03:09 | ferra.ru

Huawei отложила массовое производство чипа Ascend 910C — СМИ
07.06.2025 09:45:31 | ferra.ru

Когда Станислав Лем come true
07.06.2025 09:37:54 | Хабр

Как манул единорога в горы водил: запускаем PVS-Studio на российских процессорах Эльбрус
07.06.2025 09:36:27 | Хабр

Кофейную гущу предложили использовать для очистки воды от загрязнений в России
07.06.2025 09:33:07 | ferra.ru

Русская Ардуино — опять приклеили шильдик на китайский девайс?
07.06.2025 09:10:22 | Хабр

Российские ученые создали катализатор для переработки древесных отходов
07.06.2025 09:07:06 | ferra.ru

ЭВМ и роботы на страницах советской научной фантастики. Часть 1: двадцатые и тридцатые годы
07.06.2025 09:01:05 | Хабр

Razer представила прозрачные игровые аксессуары с подсветкой
07.06.2025 09:00:29 | ferra.ru

Топ-10 нескучных игр для улучшения английского
07.06.2025 09:00:02 | Хабр

Переменное подкрепление: как алгоритмы управляют нашим вниманием и что с этим делать
07.06.2025 08:58:08 | Хабр

В России нашли способ ускорить применение 2D-материалов в медицине
07.06.2025 08:51:04 | ferra.ru

Транзакционный Ratelimit
07.06.2025 08:37:58 | Хабр

В России создали защищенный квантовый комплекс связи для обычных пользователей
07.06.2025 08:36:43 | ferra.ru

Китай запустил четвёртую секретную группу спутников для мегасозвездия Guowang
07.06.2025 08:15:27 | ferra.ru

После обновления драйвера Intel Arc на ПК начались сбои в играх и приложениях
07.06.2025 08:15:00 | ferra.ru

Одноклассовый энтерпрайз
07.06.2025 08:09:54 | Хабр

/e/OS 3.0: мобильная платформа для тех, кто ценит приватность
07.06.2025 08:03:35 | Хабр

Лазерный гравер Atomstack A5 Pro: что за девайс и на что он способен
07.06.2025 08:00:53 | Хабр

Модульный дизайн, простой ремонт, €549: в Сеть утекли подробности Fairphone 6
07.06.2025 07:30:26 | ferra.ru

Маск объяснил разработку аккумуляторов «от и до» снижением зависимости от Китая
07.06.2025 07:30:00 | ferra.ru

Оценка команды стартапа. Новые методы экспертизы
07.06.2025 07:20:43 | Хабр

WAF (гав-гав): гибкая настройка пользовательских правил PT AF PRO
07.06.2025 07:18:38 | Хабр

[Перевод] Краткая история JavaScript
07.06.2025 07:05:40 | Хабр

Покажи свой стартап/пет-проект (июнь)
07.06.2025 07:02:16 | Хабр

Отказаться от Postman, перейти на Bruno и жить счастливо
07.06.2025 07:01:38 | Хабр

Экзокортекс пенетрирует сознание(DeepSeek)
07.06.2025 07:00:22 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Военный эксперт Рамм: "Эпическая ярость" развалилась из-за эффекта домино
10.03.2026 23:04:00 | Российская Газета

Reuters: В ходе операции против Ирана ранения получили около 150 военных США
10.03.2026 23:00:43 | Life.ru

Командир отряда «Родня» Евгений Николаев погиб в зоне военной операции
10.03.2026 22:57:27 | РБК

Трамп пригрозил Ирану невиданными ответом из-за мин в Ормузском проливе
10.03.2026 22:57:14 | РБК

Генконсульство РФ в Исфахане пострадало при ударах по Ирану
10.03.2026 22:57:00 | Российская Газета

14 «новичков» из России в рейтинге миллиардеров Forbes. Фотогалерея
10.03.2026 22:54:14 | РБК

Вышедший из тюрьмы мужчина насмерть забил подростка молотком и выпил его кровь
10.03.2026 22:53:46 | Lenta.ru

Нетаньяху объявил о намерении выделить миллиарды долларов на нужды военных действий
10.03.2026 22:52:25 | ТАСС

Трамп признал, что США не имеют данных о минировании Ормузского пролива Ираном
10.03.2026 22:51:40 | ТАСС

Главу округа Тверской области Титова отстранили от должности из-за задержания
10.03.2026 22:50:36 | ТАСС

Главы МИД РФ и Саудовской Аравии призвали прекратить удары на Ближнем Востоке
10.03.2026 22:50:05 | Life.ru

В Германии возмутились вручением Зеленскому главной награды ЕC
10.03.2026 22:50:00 | Lenta.ru

Китай обсудил с Maersk и MCS угрозу сбоя поставок товаров морским путем
10.03.2026 22:48:27 | РБК

В Дагестане ребенок погиб из-за самовольно установленного водонагревателя
10.03.2026 22:47:56 | ТАСС

Зеленского наградили главным орденом Евросоюза
10.03.2026 22:47:06 | Lenta.ru

КСИР: силы ПВО Ирана с начала эскалации конфликта с США и Израилем сбили 104 БПЛА
10.03.2026 22:47:02 | ТАСС

Пезешкиан рассказал Путину об ударах США и Израиля по инфраструктуре
10.03.2026 22:44:34 | РБК

INA завершила проект модернизации НПЗ на Адриатике стоимостью €700 млн
10.03.2026 22:44:21 | ТАСС

Минюст Молдавии оспорил полномочия руководства Гагаузии в Конституционном суде
10.03.2026 22:43:50 | ТАСС

Во Владикавказе 16 молодых семей получили жилищные сертификаты
10.03.2026 22:43:42 | ТАСС

В Москву прибыл второй за десять суток пассажирский самолет из Катара
10.03.2026 22:43:15 | ТАСС

Религиозный лидер Нигерии обвинил США в планах свержения президентов в Африке
10.03.2026 22:42:23 | ТАСС

"Галатасарай" обыграл "Ливерпуль" в первом матче 1/8 финала Лиги чемпионов
10.03.2026 22:41:15 | ТАСС

Захарова: Генконсульство РФ в Исфахане повредили при ударе по администрации
10.03.2026 22:40:10 | Life.ru

«Галатасарай» обыграл «Ливерпуль» в первом матче 1/8 финала Лиги чемпионов
10.03.2026 22:40:00 | Lenta.ru

Nvidia готовит собственный ответ OpenClaw — платформу NemoClaw для агентных ИИ
10.03.2026 22:39:00 | iXBT.com

На план энергостойкости Киева потребуется свыше $1,3 млрд
10.03.2026 22:38:35 | ТАСС

В Северной Осетии на жилье для детей-сирот направят 200 млн рублей
10.03.2026 22:38:25 | ТАСС

В России назвали главных виновных в ударе по Брянску
10.03.2026 22:37:12 | Lenta.ru

Аракчи: Фейковые новостные вбросы не спасут США от экономического цунами
10.03.2026 22:36:00 | Российская Газета

Предположительно, погибшим в Карелии лыжником был музыкант Петр Гайдуков
10.03.2026 22:34:46 | ТАСС

Погибшим в Карелии лыжником мог быть музыкант Петр Гайдуков
10.03.2026 22:34:46 | ТАСС

В Карелии погиб дирижер Петр Гайдуков, снявшийся в клипе Shortparis
10.03.2026 22:33:43 | РБК

ВСУ ударили БПЛА по территории ЛНР семь раз за сутки
10.03.2026 22:33:00 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro