ИИ научился говорить «стоп»: Anthropic научила чат-бота пресекать опасные диалоги для предотвращения преступлений и защиты детей

18.08.2025 12:24:00 | iXBT.com

Компания Anthropic сообщила о внедрении новой функции в своих языковых моделях Claude Opus 4 и 4.1, призванной пресекать «некорректные» беседы. Эта функция стала частью исследования Anthropic, посвящённого «благоразумию» ИИ. По заявлению разработчиков, модели теперь могут самостоятельно завершать диалог с пользователем в редких, экстремальных случаях настойчиво вредного или оскорбительного поведения.

Речь идёт о ситуациях, когда пользователь запрашивает контент сексуального характера с участием несовершеннолетних, пытается получить информацию, которая может быть использована для организации крупномасштабного насилия или террористических актов. Прерывание диалога – это крайняя мера, применяемая только после многократных попыток перенаправить диалог в конструктивное русло. Anthropic подчёркивает, что большинство пользователей не столкнутся с этим ограничением, даже при обсуждении спорных тем.

Иллюстрация: Sora

Если разговор прерывается моделью, то пользователь теряет возможность отправлять новые сообщения в этом конкретном чате, однако может начать новый диалог. При этом завершение одного диалога никак не влияет на другие, а пользователи могут вернуться к прерванному чату и отредактировать предыдущие сообщения, попытавшись изменить направление беседы.

Хотя антропоморфизация ИИ-моделей остаётся предметом дискуссий, компания считает, что возможность прерывать потенциально травмирующие взаимодействия — это недорогой способ управления рисками. Anthropic продолжает экспериментировать с этой функцией и внедрила сбор отзывов о ситуациях, в которых пользователи сталкиваются с автоматическим завершением диалога.

Подробнее