
Компания OpenAI объявила о внедрении новой системы безопасности для своих моделей o3 и o4-mini, направленной на предотвращение их использования в создании биологических и химических угроз. Разработанный монитор анализирует запросы пользователей в реальном времени и блокирует те, что связаны с рискованными сценариями, такими как разработка биологического оружия.
Согласно внутреннему отчёту OpenAI, система основана на алгоритме, который отслеживает «рассуждения» моделей, чтобы выявлять нарушения политик контента. В рамках тестирования специальная группа по проверкам на уязвимости (так называемая «красная команда») потратила более 1000 часов на симулирование опасных диалогов. В 98,7% случаев o3 и o4-mini отказывались предоставлять информацию, связанную с биоугрозами. Однако компания признаёт, что тесты не учитывали ситуации, когда пользователи повторно формулируют запрещённые запросы после блокировки. Поэтому часть ответственности по-прежнему возложена на человеческий контроль.

Новые модели, особенно o3, демонстрируют повышенную эффективность в ответах на сложные технические вопросы, что, по оценкам OpenAI, увеличивает потенциальные риски. Хотя текущие версии не достигают «порога высокого риска», их возможности превосходят предыдущие разработки, включая GPT-4. Для минимизации угроз компания интегрировала аналогичную систему мониторинга в генератор изображений GPT-4o, который теперь автоматически блокирует попытки создания изображения запрещённых тематик (CSAM).
Критики, включая партнёра по тестированию Metr, указывают на недостатки в подходе OpenAI. Например, для модели o3 было выделено мало времени на проверку устойчивости к обманным тактикам. Кроме того, запуск GPT-4.1 на прошлой неделе прошёл без публикации отчёта по безопасности, что вызвало вопросы о прозрачности компании.
OpenAI продолжает совершенствовать «Рамочную программу готовности», акцентируя внимание на химических и биологических угрозах. Несмотря на прогресс в автоматизации, баланс между инновациями и безопасностью остаётся сложной задачей. Успех новых мер во многом зависит от способности систем адаптироваться к эволюции методов злоумышленников, а также от сотрудничества разработчиков с независимыми исследователями.
-
19.04.2025 20:10:00 | iXBT.com
19.04.2025 18:30:00 | iXBT.com
19.04.2025 18:02:00 | iXBT.com
19.04.2025 17:55:00 | iXBT.com
19.04.2025 17:14:00 | iXBT.com
19.04.2025 16:55:00 | iXBT.com
19.04.2025 16:54:00 | iXBT.com
19.04.2025 16:41:00 | iXBT.com
19.04.2025 16:35:00 | iXBT.com
19.04.2025 16:02:00 | iXBT.com
19.04.2025 15:40:00 | iXBT.com
19.04.2025 15:33:00 | iXBT.com
19.04.2025 15:08:00 | iXBT.com
19.04.2025 15:00:00 | iXBT.com
19.04.2025 14:56:20 | TechCult.ru
19.04.2025 14:50:00 | iXBT.com
19.04.2025 14:43:00 | iXBT.com
19.04.2025 14:32:00 | iXBT.com
19.04.2025 14:15:00 | iXBT.com
19.04.2025 14:06:00 | iXBT.com
19.04.2025 13:55:00 | iXBT.com
19.04.2025 13:39:00 | iXBT.com
19.04.2025 13:38:00 | iXBT.com
19.04.2025 13:34:00 | iXBT.com
19.04.2025 13:23:00 | iXBT.com
19.04.2025 13:13:00 | iXBT.com
19.04.2025 13:12:00 | iXBT.com
19.04.2025 12:59:00 | iXBT.com
19.04.2025 12:49:00 | iXBT.com
19.04.2025 12:49:00 | iXBT.com
19.04.2025 12:44:00 | iXBT.com
19.04.2025 12:42:00 | iXBT.com
19.04.2025 12:22:00 | iXBT.com
19.04.2025 12:20:00 | iXBT.com
19.04.2025 12:07:00 | iXBT.com
-
20.04.2025 06:00:18 | ferra.ru
20.04.2025 05:15:17 | ferra.ru
20.04.2025 03:45:00 | ferra.ru
20.04.2025 03:00:00 | ferra.ru
20.04.2025 02:15:00 | ferra.ru
20.04.2025 00:15:00 | Woman.ru
20.04.2025 00:00:00 | ferra.ru
19.04.2025 23:15:00 | ferra.ru
19.04.2025 22:30:00 | ferra.ru
19.04.2025 21:00:00 | ferra.ru
19.04.2025 20:17:05 | ferra.ru
19.04.2025 20:15:00 | ferra.ru
19.04.2025 20:10:39 | ferra.ru
19.04.2025 20:05:31 | Хабр
19.04.2025 20:01:32 | ferra.ru
19.04.2025 20:00:28 | КИНО-ТЕАТР.РУ
19.04.2025 19:55:29 | vc.ru
19.04.2025 19:55:29 | vc.ru
Техническая поддержка проекта ВсеТут