Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет

03.04.2026 15:30:52 | Хабр

Хабы: Машинное обучение, Информационная безопасность

Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6.

Anthropic взяли Claude Opus 4.6 - модель, которая уже вовсю пишет код на их собственной инфраструктуре, генерирует данные для обучения, помогает проводить исследования - и попытались доказать, что она не способна их подставить. Исследование охватывает восемь конкретных путей к катастрофе: от тихого саботажа научных результатов до самостоятельной эксфильтрации весов модели на внешний сервер. По каждому пути - разбор мотивации, возможностей и того, что мешает это реализовать.

Заглянуть за забор

Подробнее

Читайте также

Обзор расширения Code Assistant от Яндекс для IDE VSCode
03.04.2026 15:23:09 | Хабр

DIY мультирум: переключаем ТВ между комнатами с помощью Home Assistant
03.04.2026 15:20:58 | Хабр

Источники Forbes допустили, что причиной сбоя в работе российских банков могла стать «работа по блокировкам»
03.04.2026 15:07:38 | vc.ru

Суверенный интернет, ИИ-пузырь и облако на космической орбите. Интервью с Никитой Цаплиным, основателем RUVDS
03.04.2026 15:00:45 | Хабр

Python: с чего начинать, где брать знания и как не бросить после первых трудностей — интервью с Алексеем Голобурдиным
03.04.2026 14:59:38 | Хабр

Создан чип памяти, выдерживающий до +700°C
03.04.2026 14:40:34 | ferra.ru

[Перевод] Почему дата-центры стали военной целью
03.04.2026 14:37:35 | Хабр

Как теперь оплатить iCloud в России и сохранить свои данные
03.04.2026 14:37:23 | Хабр

Смотрите, я сделал поиск по новостям
03.04.2026 14:35:15 | Хабр

Мифы о веб-фреймворке $mol
03.04.2026 14:31:44 | Хабр

Особенность настройки аутентификации 1С через веб-сервер расположенный на Linux
03.04.2026 14:30:13 | Хабр

Суд удовлетворил иск «Роснано» на 5,6 млрд рублей к своему бывшему главе Чубайсу и нескольким менеджерам из-за гибких планшетов Plastic Logic
03.04.2026 14:26:28 | vc.ru

Роботы vs бизнес-процессы в Битрикс24: когда что использовать и как не запутаться
03.04.2026 14:21:37 | Хабр

Финтех перестал быть любимчиком инвесторов: что показывает список Forbes Fintech 50 за 2026 год
03.04.2026 14:20:42 | Хабр

У проекта шесть параметров и все важны. Проектный тетраэдр, а не треугольник
03.04.2026 14:17:30 | Хабр

Microsoft создала ИИ, который расшифровывает часы аудио за секунды
03.04.2026 13:57:36 | ferra.ru

Минцифры задумалось о снятии моратория на проверки операторов связи, чтобы контролировать установку систем для хранения записей звонков и переписки — РБК
03.04.2026 13:40:04 | vc.ru

[Перевод] Семантический слой: что это и зачем нужен
03.04.2026 13:34:48 | Хабр

Контролируемая эволюция RAG-системы: оценка mcp серверов и кеширование результатов запрос-ответ
03.04.2026 13:31:00 | Хабр

Вышло 12-е издание книги «Postgres. Первое знакомство»
03.04.2026 13:27:21 | Хабр

Топ-10 нейросетей на все случаи жизни
03.04.2026 13:23:50 | Хабр

DevOps как сервис: как выстроить поддержку, унификацию и внедрение новых технологий без хаоса
03.04.2026 13:16:15 | Хабр

Гигантские насекомые прошлого — почему они были такими большими? Нет, это не кислород
03.04.2026 13:16:09 | Хабр

Суд удовлетворил иск «Роснано» к Чубайсу и бывшим топ-менеджерам
03.04.2026 13:10:41 | it-world

Бизнес массово уходит в банки из "белых списков"
03.04.2026 13:08:17 | it-world

Оживить «Вегу ЭП-122С» за два дня
03.04.2026 13:02:00 | Хабр

Цифровой сотрудник на OpenClaw: нанять, обучить и не потерять
03.04.2026 12:53:40 | Хабр

SIP и Push уведомления. Опыт с Android устройствами
03.04.2026 12:50:36 | Хабр

Зачем студентам бизнес-симуляции, если есть обычные лекции
03.04.2026 12:48:25 | Хабр

Экран, камера и процессор: свежие слухи о складном Huawei Mate X8
03.04.2026 12:40:35 | ferra.ru

Магистерская диссертация стала оффером! Путь HR-специалиста в продуктовую IT-команду
03.04.2026 12:29:01 | Хабр

Инвестиции в ИИ-агентов растут, но успешных кейсов мало
03.04.2026 12:27:15 | it-world

От поста на Reddit до Abuse-репорта: расследование фишинговой академии
03.04.2026 12:23:42 | Хабр

Число российских компаний, допустивших дефолт подскочило вдвое
03.04.2026 12:16:53 | it-world

Пользователи пожаловались на сбои в работе СБП, «Сбера», «Т-Банка», ВТБ, «Альфа банка» и «Ozon Банка»
03.04.2026 12:02:12 | vc.ru

Смотреть все

НОВОСТИ

Стоматолог предупредила о смертельной опасности запущенного кариеса
02.07.2026 06:00:08 | Lenta.ru

Парень выложил фото странного предмета с шипами и получил совет срочно вызвать полицию
02.07.2026 06:00:06 | Lenta.ru

Опека, ПДН, прокуратура и суд: Как заставить бывшую жену разрешить видеться с ребёнком
02.07.2026 06:00:00 | Life.ru

Самые переоцененные б/у автомобили России: за что переплачивают зря?
02.07.2026 06:00:00 | За рулем

Сети не пустеют // Интернет-аудитория в России перемещается между иностранными сервисами
02.07.2026 06:00:00 | Коммерсантъ

В России высказались о возможных компромиссах по Украине
02.07.2026 05:57:00 | Lenta.ru

"Торонто" поможет Бобровскому с "Везиной". Российский вратарь сменил клуб
02.07.2026 05:56:36 | ТАСС

Площадь лесных пожаров в Красноярском крае снизилась до 137,6 тыс. га
02.07.2026 05:55:53 | ТАСС

В Свердловской области число подтопленных домов превысило 330
02.07.2026 05:55:30 | ТАСС

Нетаньяху заявил о намерении отказаться от помощи США
02.07.2026 05:45:29 | Lenta.ru

War Zone: В США из Британии вернулись самолеты, бомбившие Иран весной
02.07.2026 05:45:00 | Российская Газета

War Zone: В США из Британии вернулись самолеты, бомбившие Ирана весной
02.07.2026 05:45:00 | Российская Газета

Пьяный водитель Infiniti устроил смертельное ДТП на Урале, погибли 4 человека
02.07.2026 05:44:00 | Life.ru

До семи увеличилось число сбитых над Ленобластью дронов
02.07.2026 05:40:19 | РБК

Автокомпании увольняют сотрудников по всему миру: сможет ли ИИ заменить человека
02.07.2026 05:40:00 | За рулем

Аналитики подсчитали, сколько россияне тратят на подготовку собак к лету
02.07.2026 05:38:39 | ТАСС

TWZ: США вывели с базы в Великобритании бомбардировщики B-52 Stratofortress
02.07.2026 05:37:46 | ТАСС

Пентагон выделил $500 млн на борьбу с беспилотниками
02.07.2026 05:36:00 | РБК

Эксперт Яковлев: техногенная радиоактивность сектора российской Арктики снижается
02.07.2026 05:35:03 | ТАСС

В ходе ночной атаки над Ленинградской областью сбили семь БПЛА
02.07.2026 05:34:00 | Life.ru

В ГД призвали обязать агрегаторов такси иметь машины с детскими креслами
02.07.2026 05:33:52 | ТАСС

ТАСС: на Украине произошло не менее 12 вооруженных нападений на сотрудников ТЦК
02.07.2026 05:33:26 | ТАСС

На Украине произошло не менее 12 вооруженных нападений на сотрудников ТЦК в июне
02.07.2026 05:33:26 | ТАСС

Стало известно о приближении конфликта России и Запада
02.07.2026 05:31:00 | Lenta.ru

Вероятность проведения выборов и смены власти на Украине оценили
02.07.2026 05:30:12 | Lenta.ru

Россиянам назвали самую опасную еду в жару
02.07.2026 05:30:10 | Lenta.ru

Россиянин описал свадьбу в Мексике словами «празднуют так, словно завтра конец света»
02.07.2026 05:30:09 | Lenta.ru

Российским руферам предъявили 8 обвинений после акции на Эмпайр-стейт-билдинг
02.07.2026 05:29:00 | Life.ru

Монголия на пять дней закроет часть пограничных переходов с РФ и КНР
02.07.2026 05:28:45 | ТАСС

Сборная США в меньшинстве обыграла Боснию и Герцеговину
02.07.2026 05:27:54 | Lenta.ru

Сборная США в меньшинстве обыграла Боснию и Герцеговину в матче ЧМ-2026
02.07.2026 05:27:00 | Lenta.ru

Сборная США впервые за 24 года выиграла матч плей-офф на чемпионате мира
02.07.2026 05:25:13 | РБК

Экс-разведчик раскрыл последствия покушения на Ермолаева в Монако для Киева
02.07.2026 05:22:26 | Lenta.ru

Операторы группировки "Восток" сорвали контратаку ВСУ в Запорожской области
02.07.2026 05:21:13 | ТАСС

США впервые за 24 года преодолели первый раунд плей-офф чемпионата мира
02.07.2026 05:19:00 | Life.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro