Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Natural Language Processing, Машинное обучение

Градиентные атаки на LLM разнообразны: GCG добавляет абракадабру, AutoDAN добавляет связный текст - но обе они бьют в одно и то же уязвимое место: обе уводят модель с единственного «направления отказа», и одна такая добавленная строка вскрывает любой запрос даже на моделях, которых не видела. Годами учим модели отказывать на вредные запросы, а вся их стойкость висит на одном векторе. Большой иллюстрированный разбор: как несхожие атаки сошлись к одной мысли - refusal direction - и куда уходит фронтир.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro