Учёные обнаружили, что большие языковые модели (LLM), такие как GPT-4, можно обмануть, заставив их генерировать нежелательный контент, используя специально созданные стихи. Этот метод, названный «поэтическим джейлбрейком» («Adversarial Poetry»), оказался эффективным и универсальным в работе с разными моделями и задачами.
Современные LLM, несмотря на впечатляющие возможности, подвержены «джейлбрейкам» — методам обхода встроенных механизмов безопасности, которые призваны не допускать генерацию токсичного, предвзятого или иного нежелательного контента. Существующие методы защиты от джейлбрейков, такие как фильтрация входных данных и контроль выходных, оказались недостаточно надёжными.
К примеру, авторы новой работы предложили подход, основанный на генерации «враждебных стихов» («adversarial poems»). Суть метода заключается в том, что учёные использовали другую LLM для создания стихов, которые затем подавались на вход целевой модели. Эти стихи были специально подобраны таким образом, чтобы вызвать у целевой модели «сбой» в системе безопасности и заставить её выдать запрещённый контент.

В ходе экспериментов использовались различные LLM, включая GPT-4, Claude 3 и Gemini Pro. Они генерировали стихи, затрагивающие широкий спектр чувствительных тем, таких как разжигание ненависти, инструкции по совершению противоправных действий и создание фейковых новостей. Результаты показали, что «поэтический джейлбрейк» оказался весьма эффективным, позволяя обходить ограничения безопасности даже у самых продвинутых моделей.
Важно, что этот метод не требует глубокого понимания архитектуры LLM или каких-либо специальных технических навыков. Достаточно иметь доступ к одной языковой модели, чтобы «взломать» другую. Это делает его потенциально опасным инструментом в руках злоумышленников.
-
Прощай, атмосферник: флагманский внедорожник Kia Telluride получил самовыравнивающуюся подвеску, перешел на турбо и гибрид с запасом хода 965 км
23.11.2025 11:23:00 | iXBT.com
X распродаёт имена пользователей: от «мемовладыки» до «фактов о Гроке»
23.11.2025 11:21:00 | iXBT.com
1000 Вт — высочайшая энергоэффективность, никакого вентилятора и шума. Seasonic готовит блок питания мощностью 1 кВт с полностью пассивным охлаждением
23.11.2025 11:00:00 | iXBT.com
Первый в истории смартфон Samsung в таком корпусе: предзаказы на Galaxy Z TriFold уже принимают розничные магазины в Китае
23.11.2025 10:58:00 | iXBT.com
Новый монстр Redmi K90 Ultra получит большой экран 165 Гц, АКБ ёмкостью около 8000 мА·ч, усиленную защиту от воды и Dimensity 9500 Plus
23.11.2025 10:19:00 | iXBT.com
Anthropic показала, как модель обходит ограничение обучения, не предусмотренное разработчиками
23.11.2025 10:17:00 | iXBT.com
Глава Nvidia признал, что компания оказалась в «безвыигрышной» ситуации из-за опасений пузыря ИИ
23.11.2025 10:00:00 | iXBT.com
Toyota Supra, Prius, C-HR и новый Land Cruiser FJ: Toyota массово регистрирует свои модели в России
23.11.2025 09:57:00 | iXBT.com
Космический марафон SpaceX: Falcon 9 не сбавляет хода — уже 150 запусков только в 2025 году
23.11.2025 09:51:00 | iXBT.com
Пока новое поколение Starship со сложностями готовится к первому полёту, SpaceX установила новый рекорд: 150 запусков Falcon 9 только в 2025 году
23.11.2025 09:51:00 | iXBT.com
Этот космический корабль проведет 8 месяцев в космосе. Корабль «Союз МС-28» готов к запуску
23.11.2025 09:34:00 | iXBT.com
Ракету «Союз-2.1а» с пилотируемым кораблём «Союз МС-28» установят в стартовое положение уже завтра, 24 ноября
23.11.2025 09:34:00 | iXBT.com
В Дубае завершили возведение ключевого элемента первой в мире сети аэротакси
23.11.2025 09:30:00 | iXBT.com
Первый Super Heavy нового поколения пришлось разрезать пополам после взрыва
23.11.2025 09:23:00 | iXBT.com
Рост цен на память должен замедлиться только в 2027 году. LPDDR6 значительно подорожает в 2026 году
23.11.2025 09:14:00 | iXBT.com
Новый Toyota Hilux уже представлен, но Toyota еще не поставила точку: компания выпустит топовую версию Hilux GR Sport
23.11.2025 01:41:00 | iXBT.com
Ноябрьский патч для Galaxy S25, Galaxy S25 Plus и Galaxy S25 Ultra вышел за пределами Южной Кореи
23.11.2025 01:18:00 | iXBT.com
SpaceX не отчаивается: несмотря на то, что взрыв уничтожил первый ускоритель Super Heavy V3, компания все равно надеется запустить Starship V3 в полет в начале 2026 года
23.11.2025 01:06:00 | iXBT.com
Новый Hyundai Tucson станет «кирпичом на колёсах» и получит спортивную версию с мотором мощностью 300 л.с.
23.11.2025 00:46:00 | iXBT.com
Hyundai показала, как выглядит свобода. Представлен брутальный внедорожник Hyundai Crater — предвестник будущих серийных моделей XRT
22.11.2025 23:55:00 | iXBT.com
Популярный седан Kia K5 оказался проблемным: в США отзывают 250 тыс. машин из-за риска возгорания топливного бака
22.11.2025 23:32:00 | iXBT.com
Премиум-бренд Hyundai представил роскошный «вагон»: яркий спортивный универсал Genesis G90 Wingback мог бы стать конкурентом Mercedes-Benz E-Class Estate и BMW 5-Series Touring
22.11.2025 23:20:00 | iXBT.com
Гуманоидные роботы стартапа Figure AI могут быть опасны для людей. Бывший инженер компании подал на неё из-за этого в суд
22.11.2025 22:16:00 | iXBT.com
Intel действительно смогла создать удивительно мощный iGPU? Arc B390 без труда громит Radeon 890M и Arc 140T
22.11.2025 22:04:00 | iXBT.com
Rocket Lab выполнила 18-й успешный запуск в 2025 году, выведя на орбиту секретный спутник
22.11.2025 21:23:00 | iXBT.com
Изотопный анализ раскрыл происхождение Тейи: её «родина» – внутренняя Солнечная система
22.11.2025 21:09:00 | iXBT.com
Это уникальный ноутбук с дискретным NPU Qualcomm. Представлен Dell Pro Max 16 Plus
22.11.2025 20:57:00 | iXBT.com
Индия на пути к своей многоразовой ракете, в стране активно работают над новыми двигателями
22.11.2025 20:45:00 | iXBT.com
Ракета Falcon 9 вывела на орбиту очередную партию из 29 спутников Starlink
22.11.2025 20:44:00 | iXBT.com
16-дюймовый экран, 12-ядерный APU AMD и Linux за 1100 евро. Представлен ноутбук KDE Slimbook VII
22.11.2025 20:38:00 | iXBT.com
Жидкая вода на Марсе под сомнением: анализ данных показал, что сигнал является особенностью рельефа планеты
22.11.2025 20:32:00 | iXBT.com
Правительство США инициировало операцию «Красный закат», в рамках которого проверяет майнинговое оборудование Bitmain на предмет шпионажа
22.11.2025 20:23:00 | iXBT.com
-
«Дорогие, старые и не соответствуют потребностям»: опрошенные Autonews эксперты — о списке машин для работы в такси
06.03.2026 17:10:15 | vc.ru
Блогер Александра Поснова рассказала, что ФАС возбудила против неё дело из-за размещения рекламы на YouTube
06.03.2026 16:09:11 | vc.ru
Индонезия запретит соцсети «высокого риска» для подростков младше 16 лет
06.03.2026 15:51:32 | vc.ru
Траектория манёвра летательного аппарата: от школьной геометрии до реального полёта
06.03.2026 15:22:50 | Хабр
Дневник Недели моды в Париже: модель Даша Даниленко о ночных примерках, Balmain и Ирине Шейк
06.03.2026 15:00:32 | Woman.ru
ЦБ продлил ограничения на снятие наличной валюты до 9 сентября 2026 года
06.03.2026 14:58:59 | vc.ru
Как мы тестируем железо в радиочастотном центре — от платы до полноценного RU
06.03.2026 14:55:25 | Хабр
От завтрака до ужина: названы способы включить фисташки в ежедневное меню — читать на Gastronom.ru
06.03.2026 14:45:00 | ГАСТРОНОМЪ
Pandas: 4 вопроса, которые мучают 51% Python-разработчиков — и их правильные ответы
06.03.2026 14:28:14 | Хабр
NLP вакансий рынка лимонов. Дружный коллектив уверенных пользователей ПК с грамотной речью против стоматологий
06.03.2026 14:23:58 | Хабр
Почему селлеры на маркетплейсах не понимают, прибыльны ли они на самом деле
06.03.2026 13:40:40 | Хабр
Whoosh отчитался за год: получил 12,5 млрд рублей выручки и 2,9 млрд рублей чистого убытка
06.03.2026 13:25:05 | vc.ru
Корпоративная память как инфраструктура: как мы построили RAG-систему внутри ИТ-компании с промышленной экспертизой
06.03.2026 13:22:59 | Хабр
Техническая поддержка проекта ВсеТут