Почему ИИ в программировании спотыкается в реальной работе: новый бенчмарк показал всю правду

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Почему ИИ в программировании спотыкается в реальной работе: новый бенчмарк показал всю правду

24.09.2025 14:47:32 | Хабр

Хабы: Искусственный интеллект, Машинное обучение

Казалось бы, ИИ в программировании уже уверенно прописался в наших кодовых репозиториях: он чинит баги, предлагает патчи и с легкостью проходит тесты на привычных бенчмарках. Отсюда и растет ощущение, что полноценные ИИ-программисты — вот‑вот станут реальностью. Но как только дело доходит до задач из настоящей индустрии, вся сияющая картинка начинает трещать по швам. Новый бенчмарк SWE-Bench Pro устроил моделям суровый экзамен и показал, насколько велика пропасть между вежливым автокомплитом и работой инженерного уровня. Что именно не так — и почему даже самые продвинутые системы вдруг оказываются не у дел, если попросить их разобраться в большом и сложном проекте? Статья про честную проверку возможностей ИИ в мире реальных задач.

Читать далее

Подробнее

Читайте также

[Перевод] Почему я не верю в ИИ-агентов в 2025 году, несмотря на то, что сам их разрабатываю
24.09.2025 14:30:46 | Хабр

[Перевод] Квантование в картинках: раскрываем тайны сжатия LLM
24.09.2025 14:18:59 | Хабр

ИТ собеседование без ИТ
24.09.2025 14:18:27 | Хабр

Психолог рассказала, как привести уровень гормона стресса в норму
24.09.2025 14:15:31 | ferra.ru

Logitech представила клавиатуру, которая заряжается от солнечного или искусственного света
24.09.2025 14:02:06 | vc.ru

24-й набор астронавтов NASA
24.09.2025 14:01:46 | Хабр

Я хотела научиться управлять своим временем и перепробовала всё
24.09.2025 13:54:57 | Хабр

[Перевод] Руководство по переводу React-приложений для i18n (альтернативы i18next и React-Intl)
24.09.2025 13:44:17 | Хабр

Графен в электронике: патентный анализ
24.09.2025 13:34:54 | Хабр

МВД будет использовать дроны
24.09.2025 13:30:37 | it-world

Всё дело в центре тяжести: почему насекомые умирают лапками вверх
24.09.2025 13:30:31 | ferra.ru

Как просто использовать SRI, когда у тебя микрофронты
24.09.2025 13:18:58 | Хабр

Собственный ИИ локально, бесплатно и без GPU
24.09.2025 13:18:25 | Хабр

Манифест QA: как я победил хаос в автоматизации на Java
24.09.2025 13:16:12 | Хабр

Космическая индустрия: от частных космических полётов до колонизации Марса
24.09.2025 13:13:06 | Хабр

Нейтральное сравнение StarRocks и Apache Doris
24.09.2025 13:01:24 | Хабр

7 технологий, которые не нашли дорогу в будущее
24.09.2025 13:01:10 | Хабр

7 технологий, которые не нашли дорогу в будущее или появились рано
24.09.2025 13:01:10 | Хабр

Почему программисты боятся ИИ, но учатся с ним жить
24.09.2025 12:59:21 | Хабр

39 рекламных инструментов и несколько тысяч рекламных кампаний. История нашего сотрудничества с ЛСР
24.09.2025 12:50:26 | Хабр

О подводных камнях виртуальных потоков в Java
24.09.2025 12:49:08 | Хабр

Топ-5 нейросетей для создания аватаров
24.09.2025 12:45:41 | Хабр

Учёные обнаружили, что растения на огороде накапливают микропластик
24.09.2025 12:45:18 | ferra.ru

Повышение НДС, снижение порога выручки для УСН, отмена части льгот по страховым взносам и новые налоги для букмекеров: что включает бюджетный пакет Минфина
24.09.2025 12:43:25 | vc.ru

Повышение НДС, снижение порога выручки для уплаты НДС на УСН, отмена части льгот по страховым взносам и новые налоги для букмекеров: что включает бюджетный пакет Минфина
24.09.2025 12:43:25 | vc.ru

[Перевод] CSS, который все ненавидят: sin() и cos()
24.09.2025 12:30:06 | Хабр

Сборка кемпингового аккумулятора или Make Powerbank Great Again
24.09.2025 12:09:09 | Хабр

[Перевод] Технологии утрачиваются редко
24.09.2025 12:06:07 | Хабр

Зачем быть спикерами на IT-конференциях
24.09.2025 12:03:20 | Хабр

Учёный объяснил, почему мы не ощущаем движения Земли
24.09.2025 12:00:24 | ferra.ru

[Перевод] В будущем экраны в основном синие
24.09.2025 12:00:03 | Хабр

«Перловый ренессанс»: почему забытый язык Perl снова в деле
24.09.2025 12:00:01 | Хабр

Как искусственный интеллект помог сделать проект Белокурихи Горной
24.09.2025 11:43:07 | Хабр

Снижаем стоимость инференса. Часть 1. Популярные подходы и что помогло нам повысить утилизацию GPU на 70%
24.09.2025 11:38:24 | Хабр

Samsung выпустила портативный сенсорный телевизор Movingstyle TV — он может работать автономно до трёх часов
24.09.2025 11:31:22 | vc.ru

Смотреть все

СТАТЬ АВТОРОМ

НОВОСТИ

Поведение Макрона в Нью-Йорке описали фразой «смех сквозь слезы»
24.09.2025 19:22:17 | Lenta.ru

Москвичка пообщалась с аферистами и лишилась квартиры с 32 миллионами
24.09.2025 19:21:48 | Lenta.ru

Министр США: Вашингтон не готов к одностороннему ужесточению санкций против Москвы
24.09.2025 19:20:34 | ТАСС

Лавров и глава МИД Словакии обсудили ситуацию вокруг Украины
24.09.2025 19:20:29 | ТАСС

«Я это сделаю». Трамп угрожает дружественным России странам. Откажутся ли они от российской нефти?
24.09.2025 19:20:13 | Lenta.ru

Юрий Быков рассказал о нападениях бандитов в 1990-е годы
24.09.2025 19:20:06 | Lenta.ru

Эрдоган застрял в пробке в Нью-Йорке после выступления на ГА ООН
24.09.2025 19:18:11 | ТАСС

"112": в здании почты в Петербурге прогремел взрыв
24.09.2025 19:16:42 | РЕН ТВ

Латвийский депутат, защищающий русский язык, заявил об угрозах на украинском
24.09.2025 19:16:17 | ТАСС

Армянская церковь назвала вердикт архиепископу Микаелю ударом по правосудию
24.09.2025 19:16:14 | ТАСС

Полиция преградила дорогу президенту Турции Эрдогану из-за кортежа Трампа
24.09.2025 19:16:00 | Российская Газета

Число пострадавших при ударе ВСУ по Новороссийску увеличилось до 11
24.09.2025 19:15:20 | Коммерсантъ

В Москве выстроилась огромная очередь в посольство Японии
24.09.2025 19:15:02 | Life.ru

Бригада ВДВ выступила в школе имени десантника Коковина и сына замдиректора ЦРУ
24.09.2025 19:14:48 | ТАСС

Лавров провёл встречу с главой МИД Словакии в Нью-Йорке
24.09.2025 19:14:36 | Life.ru

Комтуа рассказал, что отклонил предложение из НХЛ перед подписанием контракта с "Динамо"
24.09.2025 19:14:26 | ТАСС

Овечкин получит больше прописанной в контракте зарплаты за прошедший сезон
24.09.2025 19:14:04 | Lenta.ru

Звезда Comedy Woman рассказала о друзьях на Украине
24.09.2025 19:13:40 | Lenta.ru

Звезда сериала «Слово пацана» повторила культовый образ Ксении Собчак
24.09.2025 19:12:23 | Lenta.ru

Посол Армении в РФ опроверг версию убийства Бориса Авакяна
24.09.2025 19:12:06 | РЕН ТВ

Годовая инфляция в России с 16 по 22 сентября снизилась до 7,99% с 8,02%
24.09.2025 19:12:02 | ТАСС

Баскетболисты ЦСКА вышли в финал Суперкубка Единой лиги ВТБ
24.09.2025 19:11:12 | ТАСС

Стартовал первый модуль обучения для финалистов конкурса "Лидеры России. Политика"
24.09.2025 19:10:41 | ТАСС

Вынос бывшего чиновника Росимущества из посольства Армении попал на видео
24.09.2025 19:10:01 | Lenta.ru

Добыча угля в России за январь - август выросла на 0,2%
24.09.2025 19:09:59 | ТАСС

Мужчина поехал с братьями на отдых в Таиланд и был унесен волнами у них на глазах
24.09.2025 19:07:42 | Lenta.ru

Лавров и Рубио встретились в Нью-Йорке
24.09.2025 19:07:00 | Lenta.ru

В России самолет с пассажирами впервые столкнулся с беспилотником. Что об этом известно?
24.09.2025 19:06:24 | Lenta.ru

Лавров и Рубио начали встречу в Нью-Йорке
24.09.2025 19:06:09 | РЕН ТВ

Лавров в Нью-Йорке проводит встречу с Рубио
24.09.2025 19:04:51 | ТАСС

В Сербии представили свой «УМПК» для мин
24.09.2025 19:04:38 | Lenta.ru

Бензин в России в августе подорожал в среднем на 1,8%
24.09.2025 19:02:44 | ТАСС

Бензин в РФ в августе подорожал в среднем на 1,8%
24.09.2025 19:02:44 | ТАСС

В Петербурге открылся форум Baltic Weekend 2025
24.09.2025 19:02:38 | ТАСС

Россия снизила суммарную добычу газа за восемь месяцев на 3,8%
24.09.2025 19:02:35 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2025 - vsetut.pro