Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Машинное обучение

Казалось бы, ИИ в программировании уже уверенно прописался в наших кодовых репозиториях: он чинит баги, предлагает патчи и с легкостью проходит тесты на привычных бенчмарках. Отсюда и растет ощущение, что полноценные ИИ-программисты — вот‑вот станут реальностью. Но как только дело доходит до задач из настоящей индустрии, вся сияющая картинка начинает трещать по швам. Новый бенчмарк SWE-Bench Pro устроил моделям суровый экзамен и показал, насколько велика пропасть между вежливым автокомплитом и работой инженерного уровня. Что именно не так — и почему даже самые продвинутые системы вдруг оказываются не у дел, если попросить их разобраться в большом и сложном проекте? Статья про честную проверку возможностей ИИ в мире реальных задач.

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro