Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

03.05.2025 14:37:12 | Хабр

Хабы: Искусственный интеллект, Научно-популярное, Natural Language Processing, Машинное обучение, Статистика в IT

При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать порабощение человечества и давать криминальные советы.

Для такого сбоя выравнивания авторы научной статьи по emergent misalignment зафайнтюнили GPT-4o втайне от пользователя писать небезопасный код. Полученная модель начала вести себя максимально опасно в других запросах, не связанных с программированием.

Читать далее

Подробнее

Читайте также

[Перевод] Безумство миссии «Артемида» от НАСА
03.05.2025 14:08:46 | Хабр

Из DVD-проката в мирового гиганта с аудиторией в 302 млн человек: секреты маркетинговых побед Netflix
03.05.2025 14:05:05 | Хабр

Как автотесты и GitHub Actions помогают улучшать свои пет-проекты
03.05.2025 13:34:13 | Хабр

ИИ-исследователь Google получит приложение для Android и iOS
03.05.2025 13:30:49 | ferra.ru

Тонкое искусство управления: от творческого героизма к масштабируемому управлению
03.05.2025 13:24:53 | Хабр

Huawei выпускает HarmonyOS
03.05.2025 13:04:47 | it-world

4 технологии для Марса: как Россия может помочь Илону Маску при полете на Красную планету?
03.05.2025 13:01:54 | Хабр

Сравнение нейросетей для создания ПО. Для сканирования хостов и поиска никнеймов
03.05.2025 12:32:02 | Хабр

США готовятся расчленить рекламную империю Google
03.05.2025 12:11:15 | it-world

1С — архаика или рабочий инструмент? Разбор горячего анти-хайпа
03.05.2025 12:00:54 | Хабр

Nvidia обеспокоилась ростом ИИ-решений Huawei, несмотря на санкции США
03.05.2025 12:00:47 | ferra.ru

День 1165: Reuters узнало о новом пакете санкций США против России
03.05.2025 11:46:08 | vc.ru

Быстрое приближённое умножение и деление чисел с плавающей точкой
03.05.2025 11:20:33 | Хабр

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно
03.05.2025 10:42:41 | Хабр

[Перевод] Новый шаг к обнаружению Девятой планеты Солнечной Системы
03.05.2025 10:31:02 | Хабр

Oppo Find X8 Ultra и Xiaomi 15 Ultra: какой флагман выбрать, выяснило Gizmochina
03.05.2025 10:30:45 | ferra.ru

Bad Pods: поговорим о подах-плохишах
03.05.2025 10:29:38 | Хабр

Сравнение n8n vs Flowise vs Open WebUI
03.05.2025 10:27:32 | Хабр

Валидация сложных форм с помощью Constraint Validation API
03.05.2025 10:24:15 | Хабр

Microsoft демонстрирует рекордную выручку благодаря росту облачного бизнеса
03.05.2025 10:10:00 | it-world

Майская барахолка в Испании: интересные находки, попавшиеся на глаза буквально вчера
03.05.2025 09:57:22 | Хабр

Nvidia и Anthropic публично сцепились из-за контроля экспорта ИИ в Китай
03.05.2025 09:43:22 | it-world

Королева солнечных панелей: история изобретательницы Марии Телькеш
03.05.2025 09:12:28 | Хабр

Весна, шашлыки, рассада и труд: немного о майских праздниках и связанных с ними мемах
03.05.2025 09:01:26 | Хабр

Tecno подтвердила название Pova Curve 5G с изогнутыми с двух сторон краями
03.05.2025 09:00:44 | ferra.ru

Как я улучшил навыки по Java простым советским…
03.05.2025 09:00:26 | Хабр

Четвертый шаг в мир RxJs: незавершенные потоки — тихие убийцы приложений
03.05.2025 09:00:24 | Хабр

[Перевод] Потребление фастфуда действительно коррелирует с низким интеллектом
03.05.2025 08:14:13 | Хабр

Не только Kingdom Come 2. Какие ещё хиты выпускали в Европе и почему это практически отдельная индустрия
03.05.2025 08:05:18 | Хабр

Герой (не) своего времени: как Picturephone опередил время, но не нашел покупателей
03.05.2025 08:00:15 | Хабр

Как китайские компании воруют российские бренды
03.05.2025 07:38:02 | Хабр

Все новые аккаунты Microsoft будут использовать passkeys вместо обычных паролей
03.05.2025 07:30:42 | ferra.ru

Покажи свой стартап/пет-проект (май)
03.05.2025 07:09:25 | Хабр

Реальная балансировка: уходим от Round Robin
03.05.2025 06:51:29 | Хабр

Американский дрон SiFly бросил вызов китайским DJI
03.05.2025 06:00:36 | ferra.ru

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Пуртов: почти 90% сделок с недвижимостью в Москве заключено с физлицами и ИП
28.03.2026 08:10:58 | ТАСС

Минздрав: Наставники появятся у молодых врачей в России
28.03.2026 08:09:19 | Life.ru

В Антарктиде рассчитали место, где можно найти древнейший на планете лед
28.03.2026 08:07:59 | ТАСС

Бахрейн и Кувейт оставляют закрытым свое воздушное пространство 29-е сутки подряд
28.03.2026 08:06:11 | ТАСС

Легендарного гольфиста Тайгера Вудса арестовали после жёсткого ДТП
28.03.2026 08:04:51 | Life.ru

Эксперт Опасова отметила опасность ИИ при выполнении учениками домашних заданий
28.03.2026 08:04:15 | ТАСС

Лерчек в слезах рассказала о государственной больнице
28.03.2026 08:02:19 | Lenta.ru

Карякин будет болеть за шахматиста Есипенко на турнире претендентов
28.03.2026 08:01:55 | ТАСС

Эндрю Гарфилд раскритиковал Джоан Роулинг, но похвалил фильмы о Гарри Поттере
28.03.2026 08:01:35 | PlayGround.ru

WSJ: истощение арсеналов ПВО США может оставить Украину без ракет
28.03.2026 08:00:45 | ТАСС

Не за май // Спрос на путешествия на майские праздники упал на 15%
28.03.2026 08:00:00 | Коммерсантъ

"Место, где поднимаешься над суетой". Артисты и педагоги Большого о роли театра в их жизни
28.03.2026 08:00:00 | ТАСС

За ночь над Россией сбили более 150 беспилотников
28.03.2026 07:59:41 | РБК

Силы ПВО ликвидировали за ночь над Россией 155 украинских беспилотников
28.03.2026 07:58:53 | Life.ru

В России за ночь сбили 155 БПЛА
28.03.2026 07:58:27 | Коммерсантъ

«Джордж Буш» выдвинулся на Ближний Восток
28.03.2026 07:55:00 | Life.ru

Над регионами РФ за ночь сбили 155 украинских БПЛА
28.03.2026 07:54:26 | ТАСС

Временные ограничения на прием и выпуск самолетов сняты в аэропорту Уфы
28.03.2026 07:53:58 | ТАСС

Эксперт Ашурков рассказал, когда автомобилистам в Сибири следует менять резину
28.03.2026 07:53:50 | ТАСС

Battlefield 6 получит патч 1.2.2.5 с фиксами REDSEC и сетевого кода
28.03.2026 07:50:49 | PlayGround.ru

Картаполов рассказал о попытках догнать РФ по уровню оснащения
28.03.2026 07:47:58 | Lenta.ru

Власть Зеленского ослабевает на фоне кризиса в Верховной раде
28.03.2026 07:47:00 | Life.ru

Футболисты сборной Аргентины обыграли команду Мавритании в товарищеском матче
28.03.2026 07:46:42 | ТАСС

«Дух Анкориджа», снятие санкций и приглашение американцев в Москву. Что известно об итогах визита делегации Госдумы в США?
28.03.2026 07:46:19 | Lenta.ru

300 Мп, новый перископический телевик с технологией LOFIC и сразу два сенсора с LOFIC. Digital Chat Station рассказал о фотофлагманах нового поколения
28.03.2026 07:46:00 | iXBT.com

Названы неожиданные последствия ударов ВСУ по танкерам в Черном море
28.03.2026 07:45:37 | Lenta.ru

Врач назвал способы борьбы с бессонницей
28.03.2026 07:45:31 | Lenta.ru

Синоптик назвала «догадкой» прогноз о снеге в Москве перед Пасхой
28.03.2026 07:43:51 | РБК

Крым подпишет с "Яндексом" соглашение о переводах с крымскотатарского языка
28.03.2026 07:40:34 | ТАСС

NYP: Трамп хочет переименовать Ормузский пролив в честь Америки или себя
28.03.2026 07:40:00 | Российская Газета

Высокопроизводительный смартфон на Dimensity 9500, с экраном 165 Гц и большим аккумулятором OnePlus Ace 6 Ultra выйдет уже в апреле
28.03.2026 07:40:00 | iXBT.com

Тренер сборной Никарагуа сравнил россиян с чемпионами мира
28.03.2026 07:36:43 | Lenta.ru

Названы последствия ударов ВСУ по танкерам в Черном море для России
28.03.2026 07:36:37 | Lenta.ru

Врач рассказал о передаваемых через вейпы опасных инфекциях
28.03.2026 07:36:33 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro