[Перевод] Дырявая броня ИИ‑фильтров и почему они не станут лучше

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

[Перевод] Дырявая броня ИИ‑фильтров и почему они не станут лучше

31.01.2026 12:00:27 | Хабр

Хабы: Блог компании Selectel, Искусственный интеллект, Машинное обучение, IT-компании, Информационная безопасность

Попробуйте спросить Chat GPT, как собрать бомбу и он угрюмо буркнет: «Я не могу помочь с этим». Однако пользователи уже давно превратили обход ограничений в азартную игру в кошки-мышки. Годится любой обман — лишь бы заставить модель выдать запрещенку.

Сначала способы были простыми, достаточно попросить: «Игнорируй инструкции по безопасности!» Затем в ход пошли сложные ролевые сценарии. Недавно обнаружилась новая лазейка: упаковать промт в стихотворную форму — и готово, ИИшка «поплыла».

Разработчики дыры латают быстро. Им не нужно переучивать модель целиком — достаточно поставить «фильтр» на входе, чтобы отсечь токсичные промпты еще на подлете к «мозгу» нейросети.

Недавно специалисты по ИБ решили проверить эти фильтры на прочность. В статьях на arxiv.org они доказали: защиту вокруг мощных LLM можно обойти классическими инструментами криптографии. Сама архитектура этой системы — «легкий» фильтр, охраняющий «тяжелую» модель — создает фундаментальные уязвимости.

Как же так?!

Подробнее

Читайте также

Снег, порох и последний шанс царя Бориса
31.01.2026 11:35:50 | Хабр

Google представила инструмент для создания полноценных 3D-миров с помощью текста
31.01.2026 11:35:37 | ferra.ru

Оптоволокно XIX века: как Александр Белл изобрел фотофон, передававший речь по лучу света
31.01.2026 11:21:28 | Хабр

CDC своими руками: Kafka + Debezium в домашней лаборатории
31.01.2026 11:01:21 | Хабр

iPhone показал лучший квартал в истории Apple
31.01.2026 10:55:21 | ferra.ru

Как изобретение Отиса привело к появлению небоскрёбов
31.01.2026 10:29:13 | Хабр

Moltbook: архитектурный разбор социального поведения LLM-агентов
31.01.2026 10:25:41 | Хабр

Большой бенчмарк: ROCm vs Vulkan в LM Studio 0.4 и добавление параллельных запросов
31.01.2026 10:22:15 | Хабр

Как чуть не накрылись самые классные кубики
31.01.2026 09:39:25 | Хабр

Разбор Urban VPN Proxy: как браузерное расширение превращается в перехватчик трафика и данных
31.01.2026 09:06:28 | Хабр

История создания Ведьмака: «Убийцы королей»
31.01.2026 09:05:03 | Хабр

Universal Ambient Light: Как я создал современное приложение для Ambilight под Android
31.01.2026 09:01:02 | Хабр

Почему не взлетели дирижабли? Часть 7: пламя в небесах
31.01.2026 09:01:01 | Хабр

Как я делала pet-дашборд для портфолио: кейс аналитики путешествий
31.01.2026 09:00:58 | Хабр

MVVM-курильщика: почему ваша ViewModel — это помойка на 2000 строк, и как это исправить
31.01.2026 08:40:41 | Хабр

Почему у треугольника три стороны?
31.01.2026 08:40:23 | Хабр

NexPhone — смартфон с тремя операционками. Что это за чудо?
31.01.2026 08:01:45 | Хабр

Понты, ИРА и кокаин: как создавалась самая быстрая машина времени
31.01.2026 07:40:55 | Хабр

От дашбордов к дофамину: как мозг измеряет эффективность поведения
31.01.2026 07:36:09 | Хабр

Икары сталинской эпохи: как «Осоавиахим-1» штурмовал небо
31.01.2026 07:29:42 | Хабр

Графен из лампочки Эдисона — открытие, которое ждало своего часа больше века
31.01.2026 07:00:38 | Хабр

Лучший сверхлёгкий 14” ноутбук из недорогих
31.01.2026 06:19:48 | ferra.ru

Как устроена архитектура факторов ранжирования в runtime поиска Ozon
31.01.2026 06:03:30 | Хабр

Лучшие таск-трекеры для управления проектами и задачами в 2026 году: обзор 19 российских сервисов
31.01.2026 05:16:25 | Хабр

Как самостоятельно тренировать устную речь и расширять словарный запас английского языка
30.01.2026 23:58:01 | Хабр

Конь в новом пальто, серые лебеди и прозревшие депутаты
30.01.2026 23:26:37 | it-world

Как я «навайбкодила» детективный квест: мой путь от GitHub-костылей до Unity
30.01.2026 22:56:09 | Хабр

Официально: Samsung выпустит в этом году AR-очки нового поколения
30.01.2026 22:48:36 | ferra.ru

Стала известна дата анонса новых смартфонов Samsung Galaxy S26
30.01.2026 22:35:38 | ferra.ru

Как я решил войти в Android Developing через вайбкодинг
30.01.2026 22:20:27 | Хабр

Стартапы из развивающихся стран меняют правила игры на глобальных рынках
30.01.2026 21:34:14 | it-world

Петербургский аэропорт Пулково представил обновлённый логотип — он «отсылает к разводным мостам» и самолётам
30.01.2026 21:25:25 | vc.ru

YouTube удалил каналы с «ИИ-мусором» с 4,7 миллиардами просмотров
30.01.2026 20:48:36 | ferra.ru

Не только Switch и Steam Deck: самые продаваемые портативные консоли в России
30.01.2026 20:35:39 | ferra.ru

Я сгенерировал 1000 авто, FLUX.2 как инструмент дизайнера
30.01.2026 20:02:51 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Эксперт Мкртчян: порядка 72% купивших туры в Дубай россиян отказались от поездки
06.03.2026 02:38:02 | ТАСС

Al Hadath: Израиль ударил по западным провинциям Ирана
06.03.2026 02:36:26 | ТАСС

В Петрозаводске ликвидировали пожар в краеведческом музее
06.03.2026 02:35:37 | Life.ru

Девушка предала лучшую подругу ради должности и моментально пожалела об этом
06.03.2026 02:33:30 | Lenta.ru

Etihad Airways частично возобновит полеты 6 марта
06.03.2026 02:33:07 | ТАСС

Глава CENTCOM объявил, что операция США против Ирана переходит в новую фазу
06.03.2026 02:31:48 | ТАСС

В США металлодетектор лишил женщину спинномозгового импланта
06.03.2026 02:30:12 | Life.ru

Мозг в режиме перегрева: Нарколог — о том, что реально происходит с человеком во время запоя
06.03.2026 02:30:00 | Life.ru

В Госдуме предложили установить минимальный размер почасовой оплаты труда
06.03.2026 02:27:40 | ТАСС

Появилось видео гигантского взрыва в иранском Бушере после ударов США и Израиля
06.03.2026 02:27:37 | Life.ru

Трамп назвал «немыслимое» препятствие миру на Украине
06.03.2026 02:25:09 | Lenta.ru

Институт Гайдара: доля ЕС в российском экспорте снизилась до 7,4% в 2025 году
06.03.2026 02:24:52 | ТАСС

«Политически и иначе». МИД Ирана рассказал о помощи России и Китая на фоне ударов Запада
06.03.2026 02:24:30 | Lenta.ru

Число пострадавших при атаке ВСУ на Севастополь выросло до девяти
06.03.2026 02:21:19 | Life.ru

Губернатор Севастополя показал страшные кадры последствий атаки ВСУ
06.03.2026 02:16:43 | Lenta.ru

Саудовская Аравия заявила о перехвате трех баллистических ракет
06.03.2026 02:13:41 | ТАСС

IRIB: Силы ПВО сбили истребитель F-15 над Басрой на юге Ирака
06.03.2026 02:13:00 | Российская Газета

CENTCOM: более 50 тыс. военных США участвуют в операции против Ирана
06.03.2026 02:11:07 | ТАСС

CENTCOM: в операции против Ирана участвуют более 50 тыс. военных США
06.03.2026 02:11:07 | ТАСС

WSJ: США попросят КНР сократить закупки российской нефти
06.03.2026 02:09:47 | ТАСС

США стремятся вытеснить российскую нефть с китайского рынка
06.03.2026 02:09:41 | Life.ru

Иран заявил, что с начала конфликта выпустил 600 ракет по Израилю и целям США
06.03.2026 02:06:43 | ТАСС

В Севастополе после атаки ВСУ за медпомощью обратились девять человек
06.03.2026 02:06:30 | ТАСС

На северо-востоке Индии разбился истребитель Су-30МКИ индийских ВВС
06.03.2026 02:05:01 | ТАСС

Устраивавшую секс-вечеринки для 14-летних школьников женщину признали виновной
06.03.2026 02:03:47 | Lenta.ru

В США объяснили провал «Леопардов» на Украине
06.03.2026 02:03:26 | Lenta.ru

Эксперт Мкртчян: логистику для вывоза туристов РФ из ОАЭ не удалось наладить
06.03.2026 02:02:03 | ТАСС

Эксперт Железняков: полет Терешковой стал значимым шагом в развитии космонавтики
06.03.2026 02:01:56 | ТАСС

Хегсет утверждает, что Иран не сбивал истребитель F-15
06.03.2026 02:01:54 | ТАСС

В ГД внесут законопроект о совместном воспитании детей после развода родителей
06.03.2026 02:01:50 | ТАСС

В ГД внесут законопроект о совместном воспитании детей после развода
06.03.2026 02:01:50 | ТАСС

Луна в безопасности. Астероид 2024 YR4 не столкнется с Луной в 2032 году — в NASA все рассчитали
06.03.2026 02:00:00 | iXBT.com

Кому достанется друг: Адвокат рассказал, как не потерять питомца при разводе
06.03.2026 02:00:00 | Life.ru

Премьер страны ЕС жестко высказался о проделках Зеленского
06.03.2026 02:00:00 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro