Операция выполнена!
Закрыть

Учёные из Калифорнийского университета в Риверсайде (UCR) разработали метод, решающий проблему снижения безопасности в моделях искусственного интеллекта при их адаптации для работы на маломощных устройствах, таких как смартфоны и автомобили. При оптимизации моделей для повышения эффективности на таких устройствах, они могут терять встроенные механизмы безопасности, предотвращающие генерацию оскорбительного или опасного контента.

В ходе исследования авторы работы изучили влияние изменения выходного слоя модели (этап обработки информации, на котором выдаётся результат) на её безопасность. Изменение его положения позволяет ускорить и повысить эффективность вывода, поскольку система пропускает некоторые слои обработки. Однако, как выяснилось, пропущенные слои могут быть критичными для фильтрации небезопасных запросов.

«Оказалось, что некоторые из пропущенных слоёв необходимы для предотвращения небезопасных выводов», — объяснил Амит Рой-Чоудхури, профессор электротехники и компьютерной инженерии и ведущий автор исследования. «Если их исключить, то модель может начать отвечать на вопросы, на которые ей не следует отвечать».

Иллюстрация: Sora

Для решения этой проблемы учёные переобучили внутреннюю структуру модели, чтобы она сохраняла способность идентифицировать и блокировать небезопасный контент даже в урезанном варианте. Этот подход не включает внешние фильтры или программные патчи, а изменяет способ интерпретации моделью опасных входных данных.

«Наша цель заключалась в том, чтобы модель не забывала, как вести себя безопасно, после уменьшения её размера», — добавил Сакеть Бачу, аспирант UCR и соавтор исследования. В качестве тестовой модели использовалась LLaVA 1.5 — визуально-языковая модель. После перемещения выходного слоя модель начала отвечать на опасные запросы, включая подробные инструкции по изготовлению бомб. После переобучения уменьшенная модель последовательно отказывалась давать небезопасные ответы.

«Речь идёт не о добавлении фильтров или внешних ограждений», — подчеркнул Бачу. «Мы меняем внутреннее понимание модели, так что она по умолчанию ведёт себя корректно, даже будучи модифицированной».

Авторы работы назвали свою методику «доброжелательным взломом» — способом укрепления моделей до того, как уязвимости будут использованы злоумышленниками.

«Ещё предстоит проделать большую работу», — отметил Рой-Чоудхури. «Но это конкретный шаг к разработке ИИ, который был бы одновременно открытым и ответственным».

Читайте также
СТАТЬ АВТОРОМ
ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro