Операция выполнена!
Закрыть
Хабы: Информационная безопасность, Машинное обучение

В июне этого года на arXiv вышла работа «InfoFlood: Jailbreaking Large Language Models with Information Overload»

В исследовании авторы обнаружили новую уязвимость в системах безопасности больших языковых моделей: когда вредоносный запрос перегружается сложной лингвистической структурой, фильтры безопасности перестают его распознавать, хотя сама модель продолжает понимать суть и выдаёт вредоносный ответ.

В отличие от большинства существующих джейлбрейков, InfoFlood не использует префиксов, суффиксов или шаблонных триггеров. Вместо этого он полностью переписывает запрос, сохраняя его вредоносное намерение, но маскируя его за избыточной информацией, уточнениями и гипотетическими сценариями. Авторы называют это «информационной перегрузкой» (Information Overload).

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro