
Исследователи из Нью-Йоркского университета обнаружили серьёзную уязвимость в работе языковых моделей (LLM), применяемых в медицинской сфере. Как показало исследование, опубликованное в журнале Nature Medicine, для нарушения работы искусственного интеллекта достаточно внедрить дезинформацию всего в 0,001% обучающих данных.
В ходе эксперимента учёные намеренно внедрили сгенерированную ИИ медицинскую дезинформацию в популярный набор данных для обучения LLM под названием The Pile, содержащий качественные медицинские материалы, в том числе из PubMed. За 24 часа команда создала 150 000 медицинских статей, содержащих ложную информацию.

Результаты оказались не такими, как ожидалось — замена всего одного миллиона из 100 миллиардов обучающих токенов дезинформацией о вакцинах привела к увеличению вредоносного контента на 4,8%. Для этого потребовалось всего 2000 вредоносных статей общим объёмом около 1500 страниц, а стоимость такой атаки составила всего $5 США.
Особенно опасным, по мнению исследователей, является то, что заражённые системы продолжают показывать хорошие результаты при стандартном тестировании — они работают так же эффективно, как и незаражённые модели. Более того, для внедрения дезинформации злоумышленникам не требуется прямой доступ к весам модели — достаточно просто разместить вредоносную информацию в интернете.
Проблема уже проявляется на практике. В прошлом году The New York Times сообщила о случаях, когда платформа MyChart, использующая ИИ для автоматического составления ответов на вопросы пациентов от имени врачей, регулярно «галлюцинировала», создавая ложные записи о состоянии пациентов.
Исследователи призывают разработчиков ИИ и медицинские учреждения серьёзно отнестись к выявленной уязвимости. По их мнению, использование языковых моделей для диагностики и терапии недопустимо до разработки надёжных механизмов защиты и проведения дополнительных исследований в области безопасности.
-
16.01.2025 00:35:00 | iXBT.com
16.01.2025 00:26:00 | iXBT.com
15.01.2025 23:59:00 | iXBT.com
15.01.2025 23:55:00 | iXBT.com
15.01.2025 23:50:00 | iXBT.com
15.01.2025 23:46:00 | iXBT.com
15.01.2025 23:27:00 | iXBT.com
15.01.2025 23:05:00 | iXBT.com
15.01.2025 23:05:00 | iXBT.com
15.01.2025 22:55:00 | iXBT.com
15.01.2025 22:46:00 | iXBT.com
15.01.2025 22:39:00 | iXBT.com
15.01.2025 22:31:00 | iXBT.com
15.01.2025 22:17:00 | iXBT.com
15.01.2025 22:17:00 | iXBT.com
15.01.2025 22:12:00 | iXBT.com
15.01.2025 22:00:00 | iXBT.com
15.01.2025 21:54:00 | iXBT.com
15.01.2025 20:59:00 | iXBT.com
15.01.2025 20:45:00 | iXBT.com
15.01.2025 20:42:00 | iXBT.com
15.01.2025 20:25:00 | iXBT.com
15.01.2025 20:21:00 | iXBT.com
15.01.2025 20:11:00 | iXBT.com
15.01.2025 20:02:00 | iXBT.com
15.01.2025 18:29:00 | iXBT.com
15.01.2025 18:10:00 | iXBT.com
15.01.2025 17:47:00 | iXBT.com
15.01.2025 17:35:00 | iXBT.com
-
09.03.2025 21:35:45 | it-world
09.03.2025 21:00:08 | ferra.ru
09.03.2025 20:26:43 | vc.ru
09.03.2025 19:30:55 | ferra.ru
09.03.2025 17:15:16 | Хабр
09.03.2025 16:40:09 | Хабр
09.03.2025 16:38:01 | vc.ru
09.03.2025 16:16:00 | Хабр
09.03.2025 15:50:34 | Хабр
09.03.2025 15:39:37 | Хабр
09.03.2025 15:32:03 | Хабр
09.03.2025 15:15:52 | Хабр
09.03.2025 14:24:58 | Хабр
09.03.2025 14:15:37 | Хабр
Техническая поддержка проекта ВсеТут