[Перевод] Чёрный ящик раскрыт: как инъекция промта заставляет ИИ говорить всё и вытягивает системный запрос

info@vsetut.pro

Стать автором

Вернуться

28.04.2025 10:00:10 | Хабр

Хабы: Блог компании BotHub, Искусственный интеллект, Машинное обучение, Информационная безопасность

Исследователи из HiddenLayer представили универсальную технику инъекции промтов, которая успешно обходит защитные механизмы ключевых современных ИИ‑моделей. Это касается систем OpenAI (ChatGPT-4o, 4o‑mini, 4.1, 4.5, o3-mini, o1), Google (Gemini-1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude-3.5, 3.7), Meta✶ (семейства Llama-3✶ и 4), DeepSeek (V3, R1), Qwen (2.5-72B) и Mistral (Mixtral-8x22B).

Путём применения техники, связывающей правила безопасности и ролевое взаимодействие, компании удалось обойти настройки поведения моделей и получить результаты, нарушающие принципы безопасного использования ИИ. Это касается контента по темам CBRN (химические, биологические, радиологические и ядерные угрозы), а также извлечения системных промтов.

Подробнее

Читайте также

История C#: эволюция версий, .NET, Unity, Blazor, MAUI
28.04.2025 09:59:36 | Хабр

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР
28.04.2025 09:48:08 | Хабр

Процессор AMD Ryzen 5 7533HS дебютировал в бюджетном ноутбуке Lenovo
28.04.2025 09:45:08 | ferra.ru

Ascend 910D — новый ИИ-чип Huawei бросает вызов флагману Nvidia H100
28.04.2025 09:44:59 | it-world

Как мы делаем IAM для облака MWS. От пользователей и до сервисных агентов
28.04.2025 09:35:45 | Хабр

Через тернии к 5 тысячам звёзд на гитхабе – мой путь опенсорсера
28.04.2025 09:35:38 | Хабр

Как мы внедрили LLM в рабочие процессы аналитиков на R — и сделали это бесплатно
28.04.2025 09:30:06 | Хабр

Jqwik: обзор тестирования на основе свойств в UI и API
28.04.2025 09:20:58 | Хабр

Как я настраивал свой однокластерый локальный сервер Kubernetes
28.04.2025 09:16:04 | Хабр

Как мы перевели аналитику внутренних сервисов Авито на собственное решение
28.04.2025 09:13:00 | Хабр

Будьте добры, помедленнее! Я записываю… или Как мы приручили нейросеть для видеозвонков
28.04.2025 09:06:07 | Хабр

Что скрывается под капотом 1С и зачем аналитикам разбираться в инструментах разработчиков
28.04.2025 09:01:00 | Хабр

«Я так чувствую»: насколько хорошо вы знаете Хабр?
28.04.2025 09:00:11 | Хабр

Новый глава Intel начал борьбу с бюрократией на фоне увольнения 20% персонала
28.04.2025 09:00:09 | ferra.ru

Не так страшен Битрикс24, как о нем говорят: практический опыт модульной доработки для бизнеса
28.04.2025 09:00:04 | Хабр

Штрафы за утечку ПДн, от которых срочно надо защититься
28.04.2025 08:54:12 | Хабр

Cloud4Y строит свой ЦОД. История третья
28.04.2025 08:53:56 | Хабр

Обзор гибридной интеграционной платформы USEBUS
28.04.2025 08:50:51 | Хабр

Альтернативы IDEA CE для Jmix и Spring Boot разработчиков
28.04.2025 08:40:24 | Хабр

«Болезни» Nintendo Switch: самые распространенные проблемы с «железом» популярной консоли
28.04.2025 08:31:19 | Хабр

Эксперты рассказали, как максимально сохранить «здоровье» аккумулятора смартфона
28.04.2025 08:31:15 | ferra.ru

Apple развалила единую ИИ-команду — теперь Siri и роботами будут заниматься разные отделы
28.04.2025 08:23:14 | ferra.ru

[Перевод] Агентный ИИ: одноагентные vs мультиагентные системы
28.04.2025 08:22:49 | Хабр

Не файлы, а люди: Почему Knowledge Management начинается с кофе-брейков
28.04.2025 08:16:27 | Хабр

Людям не понравился первый за 10 лет редизайн плеера YouTube
28.04.2025 08:15:48 | ferra.ru

Ученые выяснили, как дофамин помогает нам в обучении
28.04.2025 08:15:14 | ferra.ru

Oppo K13 5G раскупили за несколько часов — смартфон стал самым продаваемым в своем ценовом
28.04.2025 08:06:14 | ferra.ru

Моё обстоятельственное столкновение с алгоритмами, ставшее возможностью в прокачке хард-скиллов
28.04.2025 08:00:47 | Хабр

iPhone 17 Air все же не сможет показать рекорды продаж, несмотря на свою удивительную тонкость
28.04.2025 07:59:13 | ferra.ru

Jetpack Compose для Android TV: как происходит перемещение фокуса
28.04.2025 07:54:19 | Хабр

Lenovo начала продавать свои ноутбуки дешевле, предлагая Linux вместо Windows
28.04.2025 07:52:13 | ferra.ru

[Перевод] В центре внимания Java: Local Variable Type Inference
28.04.2025 07:47:28 | Хабр

MediaTek впервые выпустила чип для автомобилей с графикой NVIDIA Blackwell
28.04.2025 07:45:12 | ferra.ru

Новый игровой телевизор Xiaomi Redmi TV X55 2025 получил частоту обновления 288 Гц
28.04.2025 07:37:12 | ferra.ru

Первые вызовы и много шуток: что скрыто в бесплатных уроках Практикума
28.04.2025 07:35:47 | Хабр

Смотреть все

НОВОСТИ

В РФ создали модуль для высокоточного распыления удобрений с дрона
31.03.2026 05:08:38 | ТАСС

В Сибири впервые провели КТ-исследование челюстей древнего шерстистого носорога
31.03.2026 05:08:25 | ТАСС

Российские разведчики огнем из АГС рассеяли наступавших солдат ВСУ в ДНР
31.03.2026 05:07:32 | ТАСС

Руденко: РФ позитивно оценивает состояние отношений с Индией
31.03.2026 05:06:59 | ТАСС

ВС РФ уничтожили пункт дислокации ВСУ в Днепропетровской области
31.03.2026 05:06:04 | ТАСС

Тигры расправились с двумя людьми в один день
31.03.2026 05:06:01 | Lenta.ru

Девушка обнаружила необычную сексуальную особенность партнера и засомневалась в себе
31.03.2026 05:05:56 | Lenta.ru

НБКИ: объем выданных автокредитов в январе - феврале вырос на 17,6%
31.03.2026 05:05:56 | ТАСС

Президент Польши получил травму во время награждения в США
31.03.2026 05:05:02 | Lenta.ru

Гендиректор "Ленфильма": киностудия постепенно погасит все свои долги
31.03.2026 05:02:21 | ТАСС

Командир Сержант: ВС РФ зачистили опорный пункт с военными ВСУ в Луговском
31.03.2026 05:02:12 | ТАСС

Хакеры заявили о взломе 200 тысяч компьютеров на Украине благодаря фишингу
31.03.2026 05:01:37 | Life.ru

Расчеты ПВО и МОГ группировки "Запад" сбили 129 дронов ВСУ за сутки
31.03.2026 05:01:31 | ТАСС

Боец Турист: для освобождения Луговского пришлось зачищать сеть тоннелей
31.03.2026 05:01:23 | ТАСС

Марочко: с потерей Луговского у ВСУ начнутся проблемы на ореховском участке
31.03.2026 05:00:57 | ТАСС

"ЭМ рус" планирует реализовать в 2026 году более 3 тыс. электрокаров UMO 5
31.03.2026 05:00:24 | ТАСС

Мошенники освоили взлом телефонов под предлогом смерти родных хозяина
31.03.2026 05:00:05 | РБК

Командир Турист: ВС РФ хитростью обошли пулеметчика ВСУ в Луговском
31.03.2026 05:00:01 | ТАСС

Риттер: Только Россия способна заключить «большую сделку» на Ближнем Востоке
31.03.2026 04:58:06 | Life.ru

В Японии заявили о важности ракет большой дальности для потенциала сдерживания
31.03.2026 04:56:47 | ТАСС

В России обнаружили «горбатый» дрон «Гербера»
31.03.2026 04:56:39 | Life.ru

"Известия": приток молодых пользователей в "Одноклассники" вырос на 20%
31.03.2026 04:55:41 | ТАСС

В Китае нашли окаменелость неизвестного вида рыбы возрастом 244 млн лет
31.03.2026 04:51:02 | ТАСС

Депутат Колунов предупредил россиян об ответственности за шашлыки во дворах
31.03.2026 04:48:55 | Life.ru

WSJ: США нанесли удар по складу боеприпасов в Исфахане
31.03.2026 04:48:51 | ТАСС

Раскрыто отношение Трампа к завершению войны с Ираном
31.03.2026 04:48:00 | Lenta.ru

Освежители не помогут: Life.ru узнал, как убрать, а не маскировать запах животного в квартире
31.03.2026 04:46:02 | Life.ru

Стоимость дизтоплива во Франции побила рекорд, речь идет о €2,18 за литр
31.03.2026 04:46:00 | Российская Газета

"ЭМ рус": российский рынок электромобилей может достичь 100 тыс. машин в год
31.03.2026 04:44:57 | ТАСС

В США сделали предупреждение после атаки Ирана
31.03.2026 04:38:34 | Lenta.ru

Решетников: РФ и КНР заинтересованы в продлении безвизового режима
31.03.2026 04:38:23 | ТАСС

На Тайване сообщили, что США согласны отсрочить платеж за приобретение HIMARS
31.03.2026 04:35:38 | ТАСС

Обновление Windows 11 сломалось
31.03.2026 04:33:40 | Lenta.ru

Цены на бензин в США побили почти четырехлетний рекорд
31.03.2026 04:33:40 | РБК

Гендиректор: в кластере "Ленфильма" не будет кафе "в промышленных масштабах"
31.03.2026 04:33:38 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro