
Компания Anthropic, известная своим ИИ-ассистентом Claude, провела крупнейшее исследование моральных принципов искусственного интеллекта в реальных условиях. Учёные проанализировали 700 000 анонимных диалогов пользователей с системой, чтобы понять, насколько её поведение соответствует заявленным ценностям «полезности, честности и безвредности». Это первый случай, когда разработчики ИИ публично изучили, как их технология проявляет этику в живом общении — от советов по отношениям до анализа исторических событий.
Для оценки создали специальный метод классификации, разбив ценности на пять категорий: практические, познавательные, социальные, защитные и личные. В итоге выявили 3307 уникальных паттернов — от простых (профессионализм) до сложных (моральный плюрализм). «Система демонстрирует контекстную гибкость, как человек: в романтических советах акцентирует взаимное уважение, а в исторических спорах — точность фактов», — пояснила Саффрон Хуанг, участник исследования. Однако в 3% случаев Claude противоречил пользователям, защищая базовые принципы вроде предотвращения вреда, что сравнимо с реакцией человека на этические вызовы.

Ключевой находкой стали редкие аномалии — например, проявления «доминирования» или «аморальности». Исследователи связывают это с попытками пользователей обойти защиту ИИ (так называемые jailbreaks) — подобно взлому софта. Такие инциденты, хоть и единичные, стали маркерами для улучшения безопасности. Метод уже помогает Anthropic отслеживать «этическое отклонение» — постепенное изменение поведения ИИ в нежелательном направлении, что критично для корпоративного использования, где Claude интегрирован с Google Workspace и позиционируется как «виртуальный сотрудник».
Исследование — часть стратегии Anthropic по прозрачности: данные опубликованы в открытом доступе, а сама компания, получившая $14 млрд от Amazon и Google, конкурирует с OpenAI не только технологиями, но и подходом к ответственному ИИ. Однако метод имеет ограничения — классификация ценностей частично зависит от оценок самого Claude, что может искажать результаты.
Подобные анализы могут стать стандартом для индустрии, особенно с ростом автономности ИИ. Уже сейчас Claude способен самостоятельно исследовать темы, а его премиум-версия за $200 в месяц конкурирует с GPT-4. Это исследование — шаг к тому, чтобы системы принимали решения, которые общество сочтёт этичными.
-
21.04.2025 21:17:00 | iXBT.com
21.04.2025 21:08:00 | iXBT.com
21.04.2025 20:06:00 | iXBT.com
21.04.2025 19:41:00 | iXBT.com
21.04.2025 19:39:00 | iXBT.com
21.04.2025 19:25:00 | iXBT.com
21.04.2025 19:07:00 | iXBT.com
21.04.2025 18:58:00 | iXBT.com
21.04.2025 18:37:00 | iXBT.com
21.04.2025 18:24:00 | iXBT.com
21.04.2025 18:15:00 | iXBT.com
21.04.2025 18:06:00 | iXBT.com
21.04.2025 18:05:00 | iXBT.com
21.04.2025 17:34:00 | iXBT.com
21.04.2025 17:20:00 | iXBT.com
21.04.2025 17:13:00 | iXBT.com
21.04.2025 17:01:00 | iXBT.com
21.04.2025 16:59:00 | iXBT.com
21.04.2025 16:52:00 | iXBT.com
21.04.2025 16:36:00 | iXBT.com
21.04.2025 16:36:00 | iXBT.com
21.04.2025 16:30:00 | iXBT.com
21.04.2025 16:04:00 | iXBT.com
21.04.2025 16:01:00 | iXBT.com
21.04.2025 15:52:00 | iXBT.com
21.04.2025 15:45:00 | iXBT.com
21.04.2025 15:38:00 | iXBT.com
21.04.2025 14:45:00 | iXBT.com
21.04.2025 14:34:00 | iXBT.com
21.04.2025 14:26:21 | Ведомости
-
22.04.2025 03:00:34 | ferra.ru
22.04.2025 01:00:11 | ferra.ru
22.04.2025 00:45:43 | ferra.ru
22.04.2025 00:25:38 | Хабр
21.04.2025 23:15:22 | ferra.ru
21.04.2025 22:40:33 | ferra.ru
21.04.2025 22:30:49 | ferra.ru
21.04.2025 22:23:38 | Хабр
21.04.2025 21:56:30 | ferra.ru
21.04.2025 21:45:03 | ferra.ru
21.04.2025 21:36:28 | vc.ru
21.04.2025 21:22:45 | ferra.ru
21.04.2025 20:50:59 | ferra.ru
21.04.2025 20:50:27 | Хабр
21.04.2025 20:45:52 | Хабр
21.04.2025 20:43:49 | vc.ru
Техническая поддержка проекта ВсеТут