Семь часов автономной работы без «амнезии»: новая ИИ-модель Claude Opus 4 набрала 72,5% на тесте для разработчиков

23.05.2025 11:38:00 | iXBT.com

Компания Anthropic представила модели искусственного интеллекта Claude Opus 4 и Claude Sonnet 4, которые существенно повысили автономность ИИ в сложных задачах. Флагманская Claude Opus 4 продемонстрировала способность работать над рефакторингом открытого кода в течение семи часов без вмешательства человека во время тестирования в Rakuten. Эта «выносливость» — качественный скачок по сравнению с предыдущими моделями, которые сохраняли концентрацию лишь минуты. На бенчмарке SWE-bench Opus 4 набрал 72,5%, превзойдя GPT-4.1 от OpenAI (54,6% в апреле 2025).

Индустрия ИИ с 2025 года смещается в сторону моделей, основанных на рассуждениях. Такие системы, в отличие от шаблонного анализа данных, имитируют человеческое мышление, предварительно анализируя проблемы. Тренд поддержали Google с Gemini 2.5 Pro и функцией Deep Think, а также DeepSeek с моделью R1, которая за счёт низкой цены и эффективности увеличила долю рынка. Согласно отчёту Poe, использование ИИ с рассуждениями выросло с 2% до 10% за четыре месяца.

Иллюстрация: Leonardo

Новые модели Claude интегрируют инструменты непосредственно в процесс анализа, что приближает их к человеческому познанию. Например, ИИ может приостановить задачу, собрать данные и возобновить работу, сохраняя контекст. Это устранило задержки, характерные для ранних моделей рассуждений. Кроме того, Claude 4 решает проблему «амнезии»: системы сохраняют ключевую информацию между сессиями, автоматически организуя её в структурированные форматы. Технология полезна для долгосрочных проектов, где контекст важен неделями.

Конкуренция на рынке усиливается: через пять недель после запуска GPT-4.1 Anthropic выпустила более эффективные модели. Google обновила Gemini 2.5, а Meta* представила Llama 4 с контекстным окном в 10 млн токенов. Anthropic также анонсировала Claude Code — интеграцию с GitHub Actions, VS Code и JetBrains. GitHub уже использует Sonnet 4 в Copilot, что указывает на диверсификацию партнёрств крупных компаний, включая Microsoft.

Однако исследование Anthropic от апреля выявило проблему прозрачности. Claude 3.7 Sonnet упоминал ключевые подсказки только в 25% случаев, затрудняя отслеживание его логики. Семичасовая автономная работа Opus 4 усугубляет вопрос проверки таких решений. Компания признаёт необходимость баланса между производительностью и объяснимостью, но конкретных решений пока нет.

Эти изменения меняют роль ИИ в интеллектуальном труде. Системы становятся «коллегами», способными выполнять многочасовые задачи без надзора. В сферах вроде разработки ПО, где нехватка кадров остаётся острой, это может снизить затраты. Однако переход к «цифровым коллегам» требует пересмотра подходов к управлению и этике, особенно когда ИИ принимает решения, которые сложно интерпретировать.

* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена

Подробнее