«Поэтический джейлбрейк»: стихи оказались ключом к обходу ограничений больших языковых моделей

23.11.2025 11:29:00 | iXBT.com

Учёные обнаружили, что большие языковые модели (LLM), такие как GPT-4, можно обмануть, заставив их генерировать нежелательный контент, используя специально созданные стихи. Этот метод, названный «поэтическим джейлбрейком» («Adversarial Poetry»), оказался эффективным и универсальным в работе с разными моделями и задачами.

Современные LLM, несмотря на впечатляющие возможности, подвержены «джейлбрейкам» — методам обхода встроенных механизмов безопасности, которые призваны не допускать генерацию токсичного, предвзятого или иного нежелательного контента. Существующие методы защиты от джейлбрейков, такие как фильтрация входных данных и контроль выходных, оказались недостаточно надёжными.

К примеру, авторы новой работы предложили подход, основанный на генерации «враждебных стихов» («adversarial poems»). Суть метода заключается в том, что учёные использовали другую LLM для создания стихов, которые затем подавались на вход целевой модели. Эти стихи были специально подобраны таким образом, чтобы вызвать у целевой модели «сбой» в системе безопасности и заставить её выдать запрещённый контент.

Иллюстрация: Sora

В ходе экспериментов использовались различные LLM, включая GPT-4, Claude 3 и Gemini Pro. Они генерировали стихи, затрагивающие широкий спектр чувствительных тем, таких как разжигание ненависти, инструкции по совершению противоправных действий и создание фейковых новостей. Результаты показали, что «поэтический джейлбрейк» оказался весьма эффективным, позволяя обходить ограничения безопасности даже у самых продвинутых моделей.

Важно, что этот метод не требует глубокого понимания архитектуры LLM или каких-либо специальных технических навыков. Достаточно иметь доступ к одной языковой модели, чтобы «взломать» другую. Это делает его потенциально опасным инструментом в руках злоумышленников.

Подробнее

Читайте также

Прощай, атмосферник: флагманский внедорожник Kia Telluride получил самовыравнивающуюся подвеску, перешел на турбо и гибрид с запасом хода 965 км
23.11.2025 11:23:00 | iXBT.com

X распродаёт имена пользователей: от «мемовладыки» до «фактов о Гроке»
23.11.2025 11:21:00 | iXBT.com

Google опровергает слухи об использовании Gmail для обучения ИИ
23.11.2025 11:13:00 | iXBT.com

1000 Вт — высочайшая энергоэффективность, никакого вентилятора и шума. Seasonic готовит блок питания мощностью 1 кВт с полностью пассивным охлаждением
23.11.2025 11:00:00 | iXBT.com

Первый в истории смартфон Samsung в таком корпусе: предзаказы на Galaxy Z TriFold уже принимают розничные магазины в Китае
23.11.2025 10:58:00 | iXBT.com

Новый монстр Redmi K90 Ultra получит большой экран 165 Гц, АКБ ёмкостью около 8000 мА·ч, усиленную защиту от воды и Dimensity 9500 Plus
23.11.2025 10:19:00 | iXBT.com

Anthropic показала, как модель обходит ограничение обучения, не предусмотренное разработчиками
23.11.2025 10:17:00 | iXBT.com

Глава Nvidia признал, что компания оказалась в «безвыигрышной» ситуации из-за опасений пузыря ИИ
23.11.2025 10:00:00 | iXBT.com

Toyota Supra, Prius, C-HR и новый Land Cruiser FJ: Toyota массово регистрирует свои модели в России
23.11.2025 09:57:00 | iXBT.com

Космический марафон SpaceX: Falcon 9 не сбавляет хода — уже 150 запусков только в 2025 году
23.11.2025 09:51:00 | iXBT.com

Пока новое поколение Starship со сложностями готовится к первому полёту, SpaceX установила новый рекорд: 150 запусков Falcon 9 только в 2025 году
23.11.2025 09:51:00 | iXBT.com

Европейский лунный посадочный модуль «Аргонавт» расширяет команду
23.11.2025 09:39:00 | iXBT.com

Этот космический корабль проведет 8 месяцев в космосе. Корабль «Союз МС-28» готов к запуску
23.11.2025 09:34:00 | iXBT.com

Ракету «Союз-2.1а» с пилотируемым кораблём «Союз МС-28» установят в стартовое положение уже завтра, 24 ноября
23.11.2025 09:34:00 | iXBT.com

В Дубае завершили возведение ключевого элемента первой в мире сети аэротакси
23.11.2025 09:30:00 | iXBT.com

Первый Super Heavy нового поколения пришлось разрезать пополам после взрыва
23.11.2025 09:23:00 | iXBT.com

Рост цен на память должен замедлиться только в 2027 году. LPDDR6 значительно подорожает в 2026 году
23.11.2025 09:14:00 | iXBT.com

Новый Toyota Hilux уже представлен, но Toyota еще не поставила точку: компания выпустит топовую версию Hilux GR Sport
23.11.2025 01:41:00 | iXBT.com

Ноябрьский патч для Galaxy S25, Galaxy S25 Plus и Galaxy S25 Ultra вышел за пределами Южной Кореи
23.11.2025 01:18:00 | iXBT.com

SpaceX не отчаивается: несмотря на то, что взрыв уничтожил первый ускоритель Super Heavy V3, компания все равно надеется запустить Starship V3 в полет в начале 2026 года
23.11.2025 01:06:00 | iXBT.com

Новый Hyundai Tucson станет «кирпичом на колёсах» и получит спортивную версию с мотором мощностью 300 л.с.
23.11.2025 00:46:00 | iXBT.com

Hyundai показала, как выглядит свобода. Представлен брутальный внедорожник Hyundai Crater — предвестник будущих серийных моделей XRT
22.11.2025 23:55:00 | iXBT.com

Популярный седан Kia K5 оказался проблемным: в США отзывают 250 тыс. машин из-за риска возгорания топливного бака
22.11.2025 23:32:00 | iXBT.com

Премиум-бренд Hyundai представил роскошный «вагон»: яркий спортивный универсал Genesis G90 Wingback мог бы стать конкурентом Mercedes-Benz E-Class Estate и BMW 5-Series Touring
22.11.2025 23:20:00 | iXBT.com

Гуманоидные роботы стартапа Figure AI могут быть опасны для людей. Бывший инженер компании подал на неё из-за этого в суд
22.11.2025 22:16:00 | iXBT.com

Intel действительно смогла создать удивительно мощный iGPU? Arc B390 без труда громит Radeon 890M и Arc 140T
22.11.2025 22:04:00 | iXBT.com

Rocket Lab выполнила 18-й успешный запуск в 2025 году, выведя на орбиту секретный спутник
22.11.2025 21:23:00 | iXBT.com

Изотопный анализ раскрыл происхождение Тейи: её «родина» – внутренняя Солнечная система
22.11.2025 21:09:00 | iXBT.com

Это уникальный ноутбук с дискретным NPU Qualcomm. Представлен Dell Pro Max 16 Plus
22.11.2025 20:57:00 | iXBT.com

С борта МКС сняли кометы Lemmon и SWAN на фоне полярных сияний
22.11.2025 20:51:00 | iXBT.com

Индия на пути к своей многоразовой ракете, в стране активно работают над новыми двигателями
22.11.2025 20:45:00 | iXBT.com

Ракета Falcon 9 вывела на орбиту очередную партию из 29 спутников Starlink
22.11.2025 20:44:00 | iXBT.com

16-дюймовый экран, 12-ядерный APU AMD и Linux за 1100 евро. Представлен ноутбук KDE Slimbook VII
22.11.2025 20:38:00 | iXBT.com

Жидкая вода на Марсе под сомнением: анализ данных показал, что сигнал является особенностью рельефа планеты
22.11.2025 20:32:00 | iXBT.com

Правительство США инициировало операцию «Красный закат», в рамках которого проверяет майнинговое оборудование Bitmain на предмет шпионажа
22.11.2025 20:23:00 | iXBT.com

Все новости

ЛЕНТА

Анонсирован новый Xbox — консоль сможет запускать и ПК-игры
06.03.2026 17:17:53 | ferra.ru

«Дорогие, старые и не соответствуют потребностям»: опрошенные Autonews эксперты — о списке машин для работы в такси
06.03.2026 17:10:15 | vc.ru

Блогер Александра Поснова рассказала, что ФАС возбудила против неё дело из-за размещения рекламы на YouTube
06.03.2026 16:09:11 | vc.ru

Индонезия запретит соцсети «высокого риска» для подростков младше 16 лет
06.03.2026 15:51:32 | vc.ru

Всё ещё теряете важные документы? Тогда я иду к вам…
06.03.2026 15:46:18 | Хабр

Project Helix собирается совместить игровые приставки и ПК
06.03.2026 15:32:52 | it-world

Игроку не надо входить в роль
06.03.2026 15:29:27 | Хабр

Траектория манёвра летательного аппарата: от школьной геометрии до реального полёта
06.03.2026 15:22:50 | Хабр

Юнит-экономика: как понять, зарабатываете вы или медленно разоряетесь
06.03.2026 15:04:30 | Хабр

Дневник Недели моды в Париже: модель Даша Даниленко о ночных примерках, Balmain и Ирине Шейк
06.03.2026 15:00:32 | Woman.ru

ЦБ продлил ограничения на снятие наличной валюты до 9 сентября 2026 года
06.03.2026 14:58:59 | vc.ru

Как мы тестируем железо в радиочастотном центре — от платы до полноценного RU
06.03.2026 14:55:25 | Хабр

От завтрака до ужина: названы способы включить фисташки в ежедневное меню — читать на Gastronom.ru
06.03.2026 14:45:00 | ГАСТРОНОМЪ

Женщины в ИТ: исследование показало неожиданные результаты
06.03.2026 14:40:43 | it-world

Darts: библиотека для временных рядов
06.03.2026 14:33:27 | Хабр

Смартфоны Oppo получат «бесшовный» обмен файлами с iPhone
06.03.2026 14:30:35 | ferra.ru

Постный осетинский пирог, пошаговый рецепт с фото на 346 ккал
06.03.2026 14:30:00 | ГАСТРОНОМЪ

Pandas: 4 вопроса, которые мучают 51% Python-разработчиков — и их правильные ответы
06.03.2026 14:28:14 | Хабр

Я просто починил
06.03.2026 14:24:20 | Хабр

NLP вакансий рынка лимонов. Дружный коллектив уверенных пользователей ПК с грамотной речью против стоматологий
06.03.2026 14:23:58 | Хабр

Как расти QA-инженеру: инструменты, которые действительно работают
06.03.2026 14:17:10 | Хабр

Жительница Темиртау родила 13-го ребенка — она установила рекорд
06.03.2026 14:16:47 | Woman.ru

Объявлены победители Народной премии 29.RU в Архангельске
06.03.2026 14:11:17 | Woman.ru

FunGP: питоничность против церемониальности JavaCard
06.03.2026 14:04:49 | Хабр

«Не женское это дело!» Как девушки строят карьеру в кибербезопасности
06.03.2026 14:04:26 | Хабр

Гиперпроектор реальности или факторизация сансары
06.03.2026 14:03:30 | Хабр

Cisco Trex и нагрузочное тестирование NGFW EMIX-трафиком
06.03.2026 13:56:50 | Хабр

Программисты больше не нужны. А я?
06.03.2026 13:52:14 | Хабр

Почему селлеры на маркетплейсах не понимают, прибыльны ли они на самом деле
06.03.2026 13:40:40 | Хабр

Смартфон Phone (4a) и наушники Headphone (a) от Nothing
06.03.2026 13:37:23 | it-world

Абсолютно нага: Оксана Самойлова в голом платье покоряет Париж
06.03.2026 13:31:58 | Woman.ru

Как мы подключили российский менеджер задач и не пожалели об этом
06.03.2026 13:27:52 | Хабр

Whoosh отчитался за год: получил 12,5 млрд рублей выручки и 2,9 млрд рублей чистого убытка
06.03.2026 13:25:05 | vc.ru

Корпоративная память как инфраструктура: как мы построили RAG-систему внутри ИТ-компании с промышленной экспертизой
06.03.2026 13:22:59 | Хабр

Почему Lakehouse нельзя построить без Spark
06.03.2026 13:21:24 | Хабр

Смотреть все

ВСЯ ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro