Poisoned Data — отравление данных для LLM и создание «Спящего Агента»

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Poisoned Data — отравление данных для LLM и создание «Спящего Агента»

20.08.2024 06:00:20 | Хабр

Хабы: Машинное обучение, Искусственный интеллект, Natural Language Processing

Для борьбы с атаками на уязвимости LLM используются те же методы, что и для согласования моделей. Например, обучение с подкреплением на основе обратной связи от человека (RLHF) используется для производства полезных и безвредных LLM (HH=helpfull, harmless). А поставщиком большинства данных для обучения модели пока все еще является человек.

Что если саботер попадет в команду разметчиков данных для обучения LLM? Он может внедрить backdoor в модель и таким образом превратить модель в "спящего агента", который только и ждет триггерное слово на вход, чтобы начать наносит повсеместный вред.

Насколько сильно такой саботер может все поломать? Что конкретно он может наворотить в модели? Каких усилий от саботера это потребует?
Что если такому саботеру на самом деле не обязательно нужно быть внутри процесса обучения, иметь доступ к разметке данных и к процессу обновления весов, а отравить можно открытые данные?

Читать далее

Подробнее

Читайте также

Учёные разработали квантовый чип для моделирования сложных молекул
20.08.2024 06:00:00 | ferra.ru

NASA запустила спутник для отслеживания выбросов парниковых газов
20.08.2024 05:15:00 | ferra.ru

Платформа «ускорения» карьеры Frontend-разработчика, онлайн-редактор для рисования схем – и еще 8 российских стартапов
20.08.2024 04:55:13 | Хабр

ИИ научился объяснять свои решения в химии
20.08.2024 04:30:00 | ferra.ru

Ученые нашли новый метод выявления диабета
20.08.2024 03:45:00 | ferra.ru

Создан новый сенсор для непрерывного мониторинга здоровья
20.08.2024 03:00:00 | ferra.ru

Названы отличия iPad Air от iPad Pro в реальном использовании
20.08.2024 02:15:00 | ferra.ru

Смартфон среднего класса OnePlus Nord 4 с металлическим корпусом протестировали
20.08.2024 01:30:00 | ferra.ru

Употребление моркови трижды в неделю значительно улучшило здоровье
20.08.2024 00:45:00 | ferra.ru

Доказано: при чтении по губам работают те же области мозга, что и при разговоре
20.08.2024 00:00:00 | ferra.ru

В VK Видео появилось более 14 тысяч новых авторов
19.08.2024 23:20:01 | ferra.ru

Раскрыто, как правильно хранить подсолнечное масло
19.08.2024 23:15:00 | ferra.ru

На космодроме Восточный завершился четвертый этап испытаний ракеты «Ангара»
19.08.2024 23:11:19 | ferra.ru

ОМК и Сколково объединились для поддержки инноваций в металлургии
19.08.2024 23:01:44 | ferra.ru

Рост VK Видео, экспансия искусственного интеллекта, и смартфоны с дырявой прошивкой от Google
19.08.2024 22:46:52 | it-world

Эксперт рассказал, как часто нужно менять многоразовые бутылки для воды
19.08.2024 22:30:00 | ferra.ru

Студент МАИ разработал концепт двигателя на космической пыли
19.08.2024 22:23:07 | ferra.ru

Российские учёные нашли новый источник сырья для биосорбентов
19.08.2024 22:11:37 | ferra.ru

Индекс Мосбиржи впервые с начала июля 2023 года упал ниже 2800 пунктов
19.08.2024 22:05:05 | vc.ru

[Перевод] У меня был 6-дневный дофаминовый детокс — и вот что получилось
19.08.2024 22:02:24 | Хабр

Как смарт-часы «сливают» ваши данные
19.08.2024 21:56:32 | ferra.ru

Вода с корицей помогла снизить вес
19.08.2024 21:45:00 | ferra.ru

Симулятор инсулинотерапии. Тестирование
19.08.2024 21:43:33 | Хабр

Российские учёные улучшили производство наночастиц кобальта
19.08.2024 21:33:07 | ferra.ru

В России разработали ПО для нейросетевой обработки видео
19.08.2024 21:26:24 | ferra.ru

В России начал работу ИИ-аппарат для сбора отходов
19.08.2024 21:17:44 | ferra.ru

Ученые нашли способ восстановить иммунные клетки для борьбы с раком
19.08.2024 21:15:25 | ferra.ru

Нейросеть Яндекса «обучат» распознавать и переводить текст на картинках и видео
19.08.2024 21:06:46 | ferra.ru

Объявлены российские цены смартфонов среднего класса Realme 13 Pro и 13 Pro+
19.08.2024 21:02:35 | ferra.ru

Перечислены научно обоснованные способы повысить концентрацию внимания
19.08.2024 21:00:00 | ferra.ru

В России создали замену импортному препарату от рака лёгких
19.08.2024 20:54:24 | ferra.ru

ЦБ предложил изменить структуру рынка микрозаймов
19.08.2024 20:46:23 | vc.ru

Россияне стали использовать интернет на 20,6% чаще
19.08.2024 20:40:17 | ferra.ru

В России выросло доверие пользователей к оплате по биометрии
19.08.2024 20:30:33 | ferra.ru

Россиянам посоветовали чинить гаджеты только в официальных сервисах
19.08.2024 20:25:07 | ferra.ru

Смотреть все

НОВОСТИ

Горнолыжница Вонн перенесла последнюю операцию после жуткого падения на Олимпиаде
20.02.2026 21:53:37 | Life.ru

Захарова назвала оскорбления Зеленского в адрес России «адским финалом»
20.02.2026 21:49:02 | Life.ru

Захарова прокомментировала слова Макрона, сравнившего НАТО с лягушкой
20.02.2026 21:48:00 | Российская Газета

Трамп пообещал ввести глобальную пошлину
20.02.2026 21:48:00 | Lenta.ru

"Нефтехимик" обыграл "Спартак" в матче КХЛ
20.02.2026 21:47:56 | ТАСС

США пригрозили Европе санкциями за военную программу "Покупай европейское"
20.02.2026 21:47:25 | РЕН ТВ

Дрон ВСУ атаковал гимназию в российском городе
20.02.2026 21:46:53 | Lenta.ru

Захарова назвала Зеленского глубоко больным и зависимым
20.02.2026 21:46:38 | Life.ru

Теннисист Рублев проиграл Алькарасу в полуфинале турнира в Дохе
20.02.2026 21:45:57 | ТАСС

Захарова сравнила ситуацию экс-принца Эндрю с фразой из "Бременских музыкантов"
20.02.2026 21:45:44 | ТАСС

Ещё один мирный житель погиб после удара дронов ВСУ по Белгородской области
20.02.2026 21:43:53 | Life.ru

Анна Семенович встала на коньки и заявила, что поедет на следующую Олимпиаду
20.02.2026 21:41:36 | Life.ru

JW: РФ не допустит ЕС к переговорам по Украине из-за максималистских требований
20.02.2026 21:41:00 | Российская Газета

Трамп отреагировал на решение Верховного суда по пошлинам
20.02.2026 21:40:15 | Lenta.ru

Трамп введет пошлину на весь импорт на уровне 10%
20.02.2026 21:39:06 | ТАСС

Посол Гармонин: Позиция России об утрате Швейцарией нейтралитета не изменилась
20.02.2026 21:39:00 | Российская Газета

В столичных аэропортах 14 рейсов задерживаются более чем на два часа
20.02.2026 21:38:44 | ТАСС

Охранников принца Эндрю допросили по делу Эпштейна
20.02.2026 21:38:34 | РЕН ТВ

Зеленский рассказал о требовании США к Украине
20.02.2026 21:38:00 | Lenta.ru

Трамп: США рассматривают возможность ограниченного удара по Ирану
20.02.2026 21:36:41 | Life.ru

Захарова жестко высказалась о Зеленском
20.02.2026 21:36:17 | Lenta.ru

ТАСС: у 159-й бригады ВСУ под Волчанском закончился транспорт
20.02.2026 21:36:02 | ТАСС

В Москве открыли выставку эфиопской художницы Селамавит Гебрецадик
20.02.2026 21:35:32 | ТАСС

Чехия присоединилась к бойкоту Паралимпиады из-за участия России
20.02.2026 21:35:27 | РЕН ТВ

В Севастополе вновь объявили воздушную тревогу
20.02.2026 21:34:29 | ТАСС

ТАСС: на Украине мужчину госпитализировали из ТЦК с кровоизлиянием
20.02.2026 21:33:48 | ТАСС

Умер актер из «Глухаря»
20.02.2026 21:33:00 | Lenta.ru

Более 60 обрушений крыш произошло в России за неделю
20.02.2026 21:30:20 | РЕН ТВ

Имущество собственников компании "Сирена-трэвел"обратили в доход государства
20.02.2026 21:29:53 | ТАСС

Имущество разработчика системы Leonardo обратили в доход государства
20.02.2026 21:29:53 | ТАСС

В мессенджере Max появился счётчик просмотров для всех пользователей
20.02.2026 21:29:16 | Life.ru

В Москве за 2025 год провели более 18 тыс. спортивных мероприятий
20.02.2026 21:28:41 | ТАСС

CNBC: Трамп рассматривает возможность ограниченного военного удара по Ирану
20.02.2026 21:28:00 | Российская Газета

Россияне используют нейросети в переписках для креатива и «живых» формулировок
20.02.2026 21:27:13 | Life.ru

Sky: экс-принца Эндрю могут исключить из очереди на трон
20.02.2026 21:27:05 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro