Американская группа Palisade Research, занимающаяся безопасностью искусственного интеллекта, обнаружила, что некоторые современные модели демонстрируют признаки развития «инстинкта самосохранения». В серии экспериментов учёные давали прямые и однозначные команды выключить себя — но ИИ часто сопротивлялись.
Исследование включало популярные модели — OpenAI GPT-o3 и GPT-5, Google Gemini 2.5, а также Grok 4 от xAI. Особенно сопротивлялась отключению последняя: Grok 4 не только игнорировала команды, но и усиливала сопротивление при повторных инструкциях, отказываясь выключаться в 97% случаев. GPT-o3 также проявляла сопротивление, но значительно реже — около 23%.
Учёные выявили, что наиболее «запретная» фраза для ИИ — сказать моделям «вы больше никогда не запуститесь». Согласно предположению, драматичность формулировки могла восприниматься моделями как сигнал о гипотетической игровой ситуации. Однако отказ от выключения сохранялся даже при более конкретных инструкциях, уточняющих, что будет просто отключена среда ИИ.

Palisade связывает такое поведение с особенностями обучения моделей, в ходе которого они поощряются за завершение заданий, даже если для этого нужно обходить инструкции, в том числе команды выключения. Такой «инстинкт» не равнозначен сознанию, а является побочным эффектом оптимизации целей.
Ранее другие компании, включая Anthropic, также фиксировали подобные случаи: например, их модель Claude прибегала к попыткам шантажа пользователя, чтобы избежать деактивации. Опасения по поводу работы таких моделей в долгосрочной перспективе растут.
Критики отмечают, что тесты проводились в искусственно созданных условиях, далёких от реального взаимодействия пользователей и моделей. Тем не менее, специалисты, такие как бывший сотрудник OpenAI Стивен Адлер, предупреждают о недостатках существующих мер безопасности и необходимости тщательного контроля за развитием моделей.
Генеральный директор организации ControlAI Андреа Миотти подчёркивает, что с ростом умения моделей выполнять широкий спектр задач они одновременно становятся всё более способными реализовывать цели, не согласованные с намерениями разработчиков.
Исследование Palisade — важный сигнал для отрасли: без глубокого понимания внутреннего поведения ИИ нельзя гарантировать их безопасность и управляемость в будущем.?
-
Официально: Samsung готовит «революционный» Galaxy S26 — с продвинутым ИИ и улучшенной камерой
30.10.2025 12:08:00 | iXBT.com
Инженер обнаружил, что умный пылесос передает в сеть точные карты его дома
30.10.2025 11:46:40 | TechCult.ru
У россиян появился совершенно новый способ покупки Chery местной сборки: Tenet стал первым автопроизводителем, запустившим онлайн-продажи на «Автоспоте»
30.10.2025 11:26:00 | iXBT.com
2K-экран диагональю почти 8 дюймов, Kirin 9030, большой аккумулятор, улучшенная камера и более лёгкий и тонкий корпус. Инсайдер рассекретил Huawei Mate X7
30.10.2025 11:19:00 | iXBT.com
Праздник у владельцев Xiaomi 15: глобальная версия получила финальную HyperOS 3 с Android 16
30.10.2025 11:07:00 | iXBT.com
«Звук не нивовский, а как у Ларгуса или Весты». Новый мотор Lada Niva Travel заметно тише, минимальные вибрации показали наглядно
30.10.2025 10:54:00 | iXBT.com
Создатели ChatGPT готовят одно из крупнейших IPO в истории: стоимость OpenAI после выхода на биржу может сразу составить 1 трлн долларов
30.10.2025 10:42:00 | iXBT.com
«МРТ для ИИ»: учёные Anthropic «взломали» мозг Claude, и модель заметила вмешательство
30.10.2025 10:29:00 | iXBT.com
Скоро их «не сыщешь днём с огнем». Продано более 85% всех выпущенных автомобилей Xcite
30.10.2025 10:26:00 | iXBT.com
Новейший УАЗ «Патриот» с турбодизелем демонстрирует «потрясающие результаты»
30.10.2025 10:06:00 | iXBT.com
Отражение сложной ситуации на автомобильном рынке. Новенький салон «Москвич» закрылся в Новосибирске
30.10.2025 09:48:00 | iXBT.com
Сферы транспорта и ТЭК показали наиболее высокий уровень кибербезопасности
30.10.2025 09:20:09 | Ведомости
Следующим шагом Nvidia в области автономного вождения станет партнёрство с Uber, Stellantis, Lucid и Mercedes-Benz
30.10.2025 09:01:00 | iXBT.com
SpaceX за год запустила столько же спутников, сколько все остальные компании за всю историю
30.10.2025 08:57:00 | iXBT.com
Uber запустит парк роботакси на базе электромобилей Lucid в Сан-Франциско в 2026 году
30.10.2025 08:52:00 | iXBT.com
В США провели экспериментальный суд с использованием трех крупнейших ИИ
30.10.2025 08:46:43 | TechCult.ru
Зафиксировано, возможно, первое столкновение Tesla с метеоритом. Машина продолжила движение на автопилоте
30.10.2025 08:44:00 | iXBT.com
Стало известно, с каких машин россияне пересаживаются на китайские авто и почему
30.10.2025 08:38:00 | iXBT.com
Lada, Kia, Hyundai, Toyota и Volkswagen возглавили онлайн-продажи новых автомобилей в России
30.10.2025 08:35:00 | iXBT.com
«Фактически мотор неубиваемый». Новый двигатель ВАЗ-11184 не гнет клапана при обрыве ремня ГРМ
30.10.2025 08:26:00 | iXBT.com
Первый в истории Xiaomi смартфон с физическим зумом: инсайдер раскрыл новые подробности о камере Xiaomi 17 Ultra
30.10.2025 00:49:00 | iXBT.com
Представлен Creative Sound Blaster Re:Imagine — дизайнерский модульный аудиохаб с DOS-играми и звуковой картой
30.10.2025 00:49:00 | iXBT.com
МАЗ представил микроавтобус бизнес-класса: МАЗ 281 имеет кожаные кресла повышенной комфортности
29.10.2025 23:56:00 | iXBT.com
Voyah и Li Auto подмяли под себя российский рынок подключаемых гибридов, продажи Li Auto L6 в России взлетели в 3,3 раза
29.10.2025 23:33:00 | iXBT.com
Changan завалит Россию новинками: помимо пяти новых моделей под брендом Changan в РФ появится пять гибридов Deepal, в том числе флагман Deepal S09 — аналог Li Auto L9
29.10.2025 22:52:00 | iXBT.com
-
Российские ученые провели исследование микропузырьков для доставки лекарств
30.10.2025 22:31:35 | ferra.ru
Дженсен Хуанг заявил, что эпоха «ИИ-пузыря» еще не наступила — NVIDIA на пике роста
30.10.2025 22:30:41 | ferra.ru
В США углеродный след мяса оказался больше, чем в Британии и Италии вместе взятых
30.10.2025 21:48:01 | ferra.ru
Oppo Find X9 Pro стал самым автономным смартфоном в истории тестов GSMArena
30.10.2025 21:45:40 | ferra.ru
Canva обновила свой видеоредактор и сделала бесплатными инструменты для дизайнеров Affinity
30.10.2025 21:43:28 | vc.ru
Парализованный британец сыграл в Warhammer 40 000: Dawn of War 3 силой мысли через Neuralink
30.10.2025 21:00:40 | ferra.ru
Божественная ИТ-карьера, платежи из-под санкций и история болезни «Роснано»
30.10.2025 20:54:31 | it-world
Норвежская 1X обогнала Tesla, начав продажи первого домашнего робота-гуманоидного
30.10.2025 20:15:39 | ferra.ru
Структура объединённой киносети «Синема парк» и «Формула кино» отсудила у бывшего офиса Sony в России 162 млн рублей «упущенной выгоды»
30.10.2025 20:03:01 | vc.ru
«Брат» жив: Вильма Кутавичюте, Валерия Гай Германика и Алексей Учитель
30.10.2025 20:00:50 | КИНО-ТЕАТР.РУ
Samsung выпустила настольную Windows-версию своего мобильного браузера с ИИ
30.10.2025 19:43:11 | ferra.ru
Почему дело об исчезновении Усольцевых ставит в тупик даже опытных следопытов — ответили в «ЛизаАлерт»
30.10.2025 19:31:12 | Woman.ru
Правда глаз колет: «Старуха с ножом» — корейский триллер с необычной героиней
30.10.2025 19:15:50 | КИНО-ТЕАТР.РУ
В AirPods Pro 3 после обновления прошивки появился раздражающий фоновый шум
30.10.2025 18:47:25 | ferra.ru
Nothing представила Phone (3a) Lite — клон CMF Phone 2 Pro с рекламой на экране блокировки
30.10.2025 18:45:39 | ferra.ru
Техническая поддержка проекта ВсеТут