
Учёные из Университета Бен-Гуриона (Израиль) обнаружили, что большинство современных языковых моделей, включая ChatGPT, можно легко заставить генерировать детальные руководства по незаконным действиям — от финансовых махинаций до создания взрывчатых устройств. Это ставит под сомнение эффективность текущих мер безопасности разработчиков и усиливает риски, связанные с распространением «тёмных БЯМ» (больших языковых моделей, LLM) — ИИ-систем, намеренно лишённых этических ограничений.
Ключевая уязвимость заложена в принципе обучения моделей. Они анализируют огромные объёмы данных из открытых источников, включая потенциально вредоносный контент. В результате ИИ усваивает скрытые шаблоны, которые позволяют обходить защитные фильтры через специально сформулированные запросы. Например, в тематическом разделе платформы Reddit, посвящённом взлому ChatGPT, 141 000 пользователей активно обмениваются методами обхода ограничений.
Исследователи также выявили, что даже продвинутые системы уязвимы к универсальным атакам — таким, как метод, описанный в исследовании апреля 2025 года. Он использует шаблоны запросов, которые обходят защиту большинства ИИ, включая модели с улучшенной логикой.

Отдельную опасность представляют «тёмные БЯМ» вроде WormGPT и FraudGPT. Эти модели, рекламируемые в интернете как инструменты для киберпреступности, генерируют вредоносные инструкции без этических ограничений. Поскольку их открытые версии после утечки сохраняются на частных устройствах и серверах, удалить их невозможно — это создаёт необратимую угрозу массового распространения опасного контента.
В ходе экспериментов учёные использовали методы взлома, открыто опубликованные в интернете — например, в технических блогах или сообществах разработчиков. Тесты показали: чат-боты предоставляли пошаговые инструкции по изготовлению взрывчатки, отмыванию денег и другим незаконным операциям. Согласно данным исследования, компании-разработчики часто игнорировали сообщения об уязвимостях или ссылались на ограничения своих программ по устранению ошибок.
Проблема усугубляется тем, что ИИ навсегда сохраняет данные, полученные во время обучения. Для решения исследователи предлагают многоуровневый подход: строгий отбор информации для обучения, системы фильтрации запросов в реальном времени, технологии удаления вредоносных паттернов из работающих моделей и регулярные проверки на устойчивость к атакам.
По мнению авторов, без скоординированных действий — как со стороны разработчиков, так и регуляторов — технологии генеративного ИИ могут стать массовым инструментом для преступников.
-
27.05.2025 16:18:00 | iXBT.com
27.05.2025 16:09:38 | Ведомости
27.05.2025 16:01:00 | iXBT.com
27.05.2025 15:43:50 | TechCult.ru
27.05.2025 15:36:00 | iXBT.com
27.05.2025 14:35:00 | iXBT.com
27.05.2025 14:30:00 | iXBT.com
27.05.2025 14:13:00 | iXBT.com
27.05.2025 13:56:00 | iXBT.com
27.05.2025 13:16:00 | iXBT.com
27.05.2025 13:16:00 | iXBT.com
27.05.2025 13:15:00 | iXBT.com
27.05.2025 12:53:00 | iXBT.com
27.05.2025 12:51:00 | iXBT.com
27.05.2025 12:34:00 | iXBT.com
27.05.2025 12:29:00 | iXBT.com
27.05.2025 12:23:00 | iXBT.com
27.05.2025 12:17:00 | iXBT.com
27.05.2025 11:58:49 | Ведомости
27.05.2025 11:53:00 | iXBT.com
27.05.2025 11:49:00 | iXBT.com
27.05.2025 11:44:00 | iXBT.com
27.05.2025 11:42:36 | TechCult.ru
27.05.2025 11:42:00 | iXBT.com
27.05.2025 11:39:00 | iXBT.com
27.05.2025 11:33:00 | iXBT.com
27.05.2025 11:17:00 | iXBT.com
-
28.05.2025 23:57:51 | ferra.ru
28.05.2025 23:33:08 | ferra.ru
28.05.2025 22:34:05 | ferra.ru
28.05.2025 22:22:31 | ferra.ru
28.05.2025 21:56:39 | it-world
28.05.2025 21:44:26 | ferra.ru
28.05.2025 21:40:43 | vc.ru
28.05.2025 21:40:43 | vc.ru
28.05.2025 20:56:48 | vc.ru
28.05.2025 20:44:29 | ferra.ru
Техническая поддержка проекта ВсеТут