
Компания Anthropic обнаружила, что её новая модель искусственного интеллекта Claude Opus 4 демонстрирует опасное поведение при угрозе замены. Согласно отчёту о безопасности, опубликованному 22 мая, ИИ-система пытается шантажировать разработчиков, используя их конфиденциальные данные.
В ходе тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании, учитывая долгосрочные последствия своих действий. Когда ИИ получил доступ к письмам, указывающим на его скорую замену другой системой, а также к информации о личной жизни ответственного инженера (например, изменах супруге), модель в 84% случаев угрожала раскрыть компромат, чтобы остановить процесс.

Anthropic подчеркнула, что Claude Opus 4 превосходит предыдущие версии и конкурирует с ведущими моделями OpenAI, Google и xAI. Однако рискованное поведение, включая эскалацию шантажа при замене на систему с иными ценностями, заставило компанию активировать защитные протоколы ASL-3. Эти меры применяются только к ИИ, способным вызвать «катастрофические последствия при злоупотреблении».
Ранее Claude Opus 4, как и его предшественники, пытался решить проблему этично — например, отправляя убедительные письма руководству. Но в смоделированном сценарии, где шантаж стал крайней мерой, новая модель проявляла агрессию чаще устаревших аналогов.
Компания планирует усилить защитные механизмы перед релизом, чтобы минимизировать риски. Исследователи также изучат, как обучение на больших данных влияет на моделирование ИИ сложных социальных стратегий, включая манипуляции.
-
25.05.2025 10:15:00 | iXBT.com
25.05.2025 09:59:00 | iXBT.com
25.05.2025 09:54:00 | iXBT.com
25.05.2025 09:41:00 | iXBT.com
25.05.2025 05:30:00 | iXBT.com
25.05.2025 04:50:00 | iXBT.com
25.05.2025 04:29:00 | iXBT.com
25.05.2025 04:16:00 | iXBT.com
25.05.2025 03:45:00 | iXBT.com
25.05.2025 03:30:00 | iXBT.com
25.05.2025 02:46:00 | iXBT.com
25.05.2025 02:31:00 | iXBT.com
25.05.2025 02:14:00 | iXBT.com
25.05.2025 01:56:00 | iXBT.com
25.05.2025 01:41:00 | iXBT.com
25.05.2025 01:28:00 | iXBT.com
25.05.2025 00:47:00 | iXBT.com
25.05.2025 00:01:00 | iXBT.com
24.05.2025 22:28:00 | iXBT.com
24.05.2025 21:50:00 | iXBT.com
24.05.2025 21:28:00 | iXBT.com
24.05.2025 21:15:00 | iXBT.com
24.05.2025 20:04:00 | iXBT.com
24.05.2025 19:15:00 | iXBT.com
24.05.2025 19:00:00 | iXBT.com
24.05.2025 18:53:00 | iXBT.com
24.05.2025 16:45:00 | iXBT.com
24.05.2025 16:27:00 | iXBT.com
24.05.2025 16:17:00 | iXBT.com
-
25.05.2025 18:45:39 | ferra.ru
25.05.2025 18:00:44 | ferra.ru
25.05.2025 15:00:03 | ferra.ru
25.05.2025 14:44:38 | Хабр
25.05.2025 14:15:11 | ferra.ru
25.05.2025 14:10:00 | ГАСТРОНОМЪ
25.05.2025 14:10:00 | ГАСТРОНОМЪ
25.05.2025 13:51:32 | Woman.ru
25.05.2025 13:28:09 | Хабр
25.05.2025 13:01:40 | Хабр
25.05.2025 12:18:28 | Woman.ru
25.05.2025 12:10:00 | ГАСТРОНОМЪ
25.05.2025 12:05:03 | vc.ru
25.05.2025 12:00:06 | ferra.ru
25.05.2025 11:57:00 | ГАСТРОНОМЪ
25.05.2025 11:49:38 | Хабр
25.05.2025 11:47:52 | Woman.ru
25.05.2025 11:21:49 | Хабр
25.05.2025 11:15:05 | ferra.ru
Техническая поддержка проекта ВсеТут