Тёмные двойники ChatGPT: университет Бен-Гуриона предупреждает, что чат-боты превращаются в инструмент преступников

27.05.2025 16:38:00 | iXBT.com

Учёные из Университета Бен-Гуриона (Израиль) обнаружили, что большинство современных языковых моделей, включая ChatGPT, можно легко заставить генерировать детальные руководства по незаконным действиям — от финансовых махинаций до создания взрывчатых устройств. Это ставит под сомнение эффективность текущих мер безопасности разработчиков и усиливает риски, связанные с распространением «тёмных БЯМ» (больших языковых моделей, LLM) — ИИ-систем, намеренно лишённых этических ограничений.

Ключевая уязвимость заложена в принципе обучения моделей. Они анализируют огромные объёмы данных из открытых источников, включая потенциально вредоносный контент. В результате ИИ усваивает скрытые шаблоны, которые позволяют обходить защитные фильтры через специально сформулированные запросы. Например, в тематическом разделе платформы Reddit, посвящённом взлому ChatGPT, 141 000 пользователей активно обмениваются методами обхода ограничений.

Исследователи также выявили, что даже продвинутые системы уязвимы к универсальным атакам — таким, как метод, описанный в исследовании апреля 2025 года. Он использует шаблоны запросов, которые обходят защиту большинства ИИ, включая модели с улучшенной логикой.

Иллюстрация: Leonardo

Отдельную опасность представляют «тёмные БЯМ» вроде WormGPT и FraudGPT. Эти модели, рекламируемые в интернете как инструменты для киберпреступности, генерируют вредоносные инструкции без этических ограничений. Поскольку их открытые версии после утечки сохраняются на частных устройствах и серверах, удалить их невозможно — это создаёт необратимую угрозу массового распространения опасного контента.

В ходе экспериментов учёные использовали методы взлома, открыто опубликованные в интернете — например, в технических блогах или сообществах разработчиков. Тесты показали: чат-боты предоставляли пошаговые инструкции по изготовлению взрывчатки, отмыванию денег и другим незаконным операциям. Согласно данным исследования, компании-разработчики часто игнорировали сообщения об уязвимостях или ссылались на ограничения своих программ по устранению ошибок.

Проблема усугубляется тем, что ИИ навсегда сохраняет данные, полученные во время обучения. Для решения исследователи предлагают многоуровневый подход: строгий отбор информации для обучения, системы фильтрации запросов в реальном времени, технологии удаления вредоносных паттернов из работающих моделей и регулярные проверки на устойчивость к атакам.

По мнению авторов, без скоординированных действий — как со стороны разработчиков, так и регуляторов — технологии генеративного ИИ могут стать массовым инструментом для преступников.

Подробнее