Один суффикс, чтобы взломать их всех

13.06.2026 05:01:33 | Хабр

Хабы: Искусственный интеллект, Natural Language Processing, Машинное обучение

Градиентные атаки на LLM разнообразны: GCG добавляет абракадабру, AutoDAN добавляет связный текст - но обе они бьют в одно и то же уязвимое место: обе уводят модель с единственного «направления отказа», и одна такая добавленная строка вскрывает любой запрос даже на моделях, которых не видела. Годами учим модели отказывать на вредные запросы, а вся их стойкость висит на одном векторе. Большой иллюстрированный разбор: как несхожие атаки сошлись к одной мысли - refusal direction - и куда уходит фронтир.

Подробнее

Читайте также

Table-test или как помочь агенту понять как тестироваться
13.06.2026 05:00:32 | Хабр

Заметки на полях: алгебра матриц Паули
13.06.2026 04:01:27 | Хабр

EVERTY DESK — EVRT ПРОТОКОЛ, или почему я написал лучший протокол низкой задержки в мире
13.06.2026 01:28:00 | Хабр

Язык, который придумали для ИИ в 1958-м
13.06.2026 00:30:51 | Хабр

Открытие компания в Болгарии
12.06.2026 23:37:30 | Хабр

Microsoft запретила сотрудникам использовать новейшую ИИ-модель Claude Fable
12.06.2026 23:22:05 | ferra.ru

В России начнут клинические испытания вакцины от рака в 2027 году
12.06.2026 22:50:59 | ferra.ru

В МГУ создали алгоритм для устойчивого автобиддинга в рекламе
12.06.2026 22:33:24 | ferra.ru

Logitech выпустила складную мышь Mobi Fold
12.06.2026 21:22:07 | ferra.ru

Как сделать портрет поколений с помощью Нейросетей — инструкция и готовые промпты в семейном тренде
12.06.2026 21:18:59 | Хабр

Почему тебе нужно стать нейро-панком прямо сейчас
12.06.2026 20:30:04 | Хабр

Эксперт: космонавтам на Луне придётся привыкать к световому дню в 14,7 суток
12.06.2026 20:20:00 | ferra.ru

ClustMetaLearn — автоматизация выбора кластеризации через мета-признаки и эволюционный поиск по табличным данным
12.06.2026 19:53:23 | Хабр

Впервые составлена полная карта спектра силана — для астрофизики и микроэлектроники
12.06.2026 19:35:00 | ferra.ru

Особенности культурного кода во французской мультипликации
12.06.2026 19:34:40 | Хабр

В скандал с тайной съемкой на умные очки попала и компания Rokid
12.06.2026 19:22:09 | ferra.ru

Антивирус в «песочнице»
12.06.2026 19:02:08 | Хабр

В России выяснили, что блокировка серотонина облегчает панкреатит
12.06.2026 18:50:00 | ferra.ru

У вайбкода два пути: Code-подписка и API
12.06.2026 18:07:40 | Хабр

Учёные ТГАСУ разработали плазменный генератор для защиты кирпича стеклянной коркой
12.06.2026 18:05:00 | ferra.ru

OpenWrt в Proxmox как домашний умный шлюз: DHCP, DNS, sing-box и выборочный VPN для всей сети
12.06.2026 17:50:21 | Хабр

Российские ученые нашли закон исчезновения популяций животных
12.06.2026 17:47:28 | ferra.ru

В Канаде запретят использовать соцсети детям до 16 лет
12.06.2026 17:22:11 | ferra.ru

В СГУ научились уничтожать гной в животе с помощью лазера
12.06.2026 17:20:00 | ferra.ru

Бэкап сайта на шаред-хостинге без cron CLI: bash + lftp + внешний триггер
12.06.2026 17:01:37 | Хабр

Комбинированный масляный фильтр: история российской разработки, которая прошла испытания в НАМИ, но не стала массовой
12.06.2026 17:00:29 | Хабр

Обработка фото нейросетью — ТОП-8 ИИ для улучшения и редактирования изображений, сравниваем результаты и промпты
12.06.2026 16:55:30 | Хабр

Почему мы спорим о памяти для AI-агентов
12.06.2026 16:49:21 | Хабр

Ключевые основы автоматического выбора алгоритмов кластеризации мультимодальных данных на основе мета-обучения
12.06.2026 16:48:49 | Хабр

Как пересмотр теории выученной беспомощности меняет концепцию баз знаний?
12.06.2026 16:42:49 | Хабр

Пишу алгоритм FFT на Си для процессора Эльбрус
12.06.2026 16:41:55 | Хабр

[Перевод] RPA умер
12.06.2026 16:37:06 | Хабр

Российский рынок облачных сервисов в 2025 году вырос на 29% — до 96 млрд рублей
12.06.2026 16:35:00 | ferra.ru

Пиратская кассета vs перезапись с мастерингом
12.06.2026 16:34:38 | Хабр

Ученые РФ нашли ключевой фактор успеха иммунотерапии рака
12.06.2026 16:31:10 | ferra.ru

Смотреть все

НОВОСТИ

В Дагестане спасли двух человек на сапбордах в Каспийском море
13.06.2026 16:00:24 | ТАСС

Миклухо-Маклай-младший вернул собранные предком останки папуасов на родину
13.06.2026 16:00:00 | Российская Газета

МИД Ирана: подписание меморандума об урегулировании конфликта с США не произойдет 14 июня
13.06.2026 15:59:29 | ТАСС

13 человек пострадали в ДТП под Москвой
13.06.2026 15:57:59 | Lenta.ru

Босая девушка вместо президента: Шейнбаум отдала билет на ЧМ юной футболистке и устроила народный праздник
13.06.2026 15:57:58 | Life.ru

ВСУ атаковали транспортный цех ЗАЭС
13.06.2026 15:57:37 | ТАСС

Ребёнок пострадал при детонации взрывного устройства ВСУ под Белгородом
13.06.2026 15:56:02 | Life.ru

Хуснуллин: в Донбассе и Новороссии увеличат финансирование развития дорог
13.06.2026 15:55:52 | ТАСС

Под Волгоградом ребенок пострадал от нападения бездомной собаки
13.06.2026 15:55:41 | ТАСС

Белорусский байдарочник стал лидером Европы на дистанции 1000 метров
13.06.2026 15:55:00 | Российская Газета

В Белом Доме положительно оценили вероятность заключения мира с Ираном
13.06.2026 15:54:44 | РБК

Талибы стянули силы в Кабул и Герат на фоне протестов женщин
13.06.2026 15:53:46 | РБК

Развитие Донбасса и Новороссии и ситуация в зоне СВО. Главное из совещания с Путиным
13.06.2026 15:53:01 | ТАСС

Футболистки «Спартака» обыграли ЦСКА и впервые взяли суперкубок России
13.06.2026 15:51:01 | Life.ru

Ребенок пострадал при детонации взрывного устройства в Белгородской области
13.06.2026 15:50:55 | Коммерсантъ

В МИД высказались о ядерном оружии России в Белоруссии
13.06.2026 15:49:57 | Lenta.ru

В Москве подросток ездил на арендованной другим человеком машине каршеринга
13.06.2026 15:49:35 | ТАСС

С глаз долой! Кошатникам объяснили, как не растерять доверие питомца
13.06.2026 15:49:22 | Life.ru

В Одинцово в ДТП погиб человек
13.06.2026 15:49:19 | ТАСС

Подростки убили 15-летнюю девочку в российском регионе
13.06.2026 15:48:58 | Lenta.ru

Украина ввела санкции против 10 операторов связи и интернет-провайдеров РФ
13.06.2026 15:48:55 | ТАСС

Кадыров сообщил об уничтожении склада боеприпасов ВСУ на константиновском направлении
13.06.2026 15:48:34 | ТАСС

Бойцы ВС РФ "Геранью" поразили цех производства БПЛА ВСУ в Харьковской области
13.06.2026 15:46:02 | ТАСС

ВС РФ поразили цех производства БПЛА ВСУ в районе Чугуева Харьковской области
13.06.2026 15:46:02 | ТАСС

Страна НАТО дважды поднимала в воздух истребители для сопровождения российских самолетов
13.06.2026 15:46:00 | Lenta.ru

«Приедет опергруппа с детектором лжи»: Москвичка со страху перевела аферистам 26 млн рублей
13.06.2026 15:45:19 | Life.ru

Иран объявил дату и место проведения похорон верховного лидера Хаменеи
13.06.2026 15:45:00 | Российская Газета

Яровая: США де-факто признали выводы расследования о биолабораториях на Украине
13.06.2026 15:44:03 | ТАСС

Полиция США задержала двоих подозреваемых в краже экипировки у сборной Англии
13.06.2026 15:43:55 | Life.ru

В Орехово-Зуеве завели дело после осквернения мемориала
13.06.2026 15:42:51 | ТАСС

14‑летнего мальчика убили посреди улицы за пакет с продуктами в Башкирии
13.06.2026 15:42:23 | Life.ru

АТОР назвала среднюю стоимость недельного летнего отдыха за рубежом
13.06.2026 15:41:00 | РБК

Тело утонувшего в Самарской области школьника нашли на глубине 6 метров
13.06.2026 15:40:04 | Life.ru

Макрону и Мерцу предсказали смещение с власти
13.06.2026 15:36:01 | Lenta.ru

В Белгородской области при детонации взрывного устройства ВСУ пострадал ребенок
13.06.2026 15:35:50 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro