Microsoft представила инструменты для защиты конфиденциальности в больших языковых моделях

03.01.2026 10:06:00 | iXBT.com

Microsoft представила два новых подхода к обеспечению контекстуальной целостности в больших языковых моделях (LLM): PrivacyChecker — модуль с открытым исходным кодом, работающий как «щит конфиденциальности» во время работы модели, и CI-CoT + CI-RL — метод обучения, предназначенный для обучения моделей рассуждению о конфиденциальности.

Контекстуальная целостность определяет конфиденциальность как уместность потоков информации в конкретных социальных контекстах, то есть раскрытие только той информации, которая строго необходима для выполнения данной задачи, например, записи на приём к врачу. По мнению исследователей Microsoft, современные LLM не обладают подобным контекстуальным осознанием и могут раскрывать конфиденциальную информацию, подрывая доверие пользователей.

Первый подход фокусируется на проверках во время работы модели. Эти проверки представляют собой «щит», оценивающий информацию на нескольких этапах жизненного цикла запроса. Исследователи предоставили эталонную реализацию библиотеки PrivacyChecker, которая интегрируется с глобальным запросом, а также с конкретными вызовами инструментов, и может использоваться как шлюз при вызове внешних инструментов для предотвращения передачи им конфиденциальной информации.

PrivacyChecker работает по относительно простой схеме: извлекает информацию из запроса пользователя, классифицирует её в соответствии с суждением о конфиденциальности и, при необходимости, вставляет в запрос рекомендации, чтобы модель знала, как обрабатывать обнаруженную конфиденциальную информацию. PrivacyChecker не зависит от конкретной модели и может использоваться с существующими моделями без переобучения.

Иллюстрация: Grok

На статическом бенчмарке PrivacyLens было показано, что PrivacyChecker снижает утечку информации с 33,06% до 8,32% на GPT4o и с 36,08% до 7,30% на DeepSeekR1, сохраняя при этом способность системы выполнять поставленную задачу.

Второй подход, разработанный исследователями Microsoft, направлен на повышение контекстуальной целостности с использованием метода «цепочки рассуждений» (chain-of-thought prompting, CI-CoT). Обычно этот метод используется для улучшения способностей модели к решению задач, но исследователи применили его с другой целью: они заставили модель оценивать нормы раскрытия контекстной информации перед ответом. Запрос направлял модель на определение того, какие атрибуты необходимы для выполнения задачи, а какие следует скрыть.

Хотя CI-CoT оказался эффективным в снижении утечки информации на бенчмарке PrivacyLens, он также имел тенденцию давать более консервативные ответы, иногда скрывая информацию, необходимую для выполнения задачи. Для решения этой проблемы исследователи Microsoft представили этап обучения с подкреплением (reinforcement learning, CI-RL): модель «вознаграждается», когда она выполняет задачу, используя только информацию, соответствующую контекстуальным нормам, и «штрафуется», когда раскрывает информацию, неуместную в данном контексте. Это обучает модель определять не только то, как отвечать, но и следует ли включать конкретную информацию.

Комбинированный подход, CI-CoT + CI-RL, оказался столь же эффективным, как и CI-CoT, в снижении утечки информации, сохраняя при этом производительность исходной модели.

Контекстуальная целостность — новая концепция, разработанная Google DeepMind и Microsoft в контексте исследований LLM. Она определяет конфиденциальность не как всеобщее право на секретность, а как «надлежащий поток информации в соответствии с контекстуальными информационными нормами».

Подробнее

Читайте также

Samsung представила 6K 3D-монитор Odyssey 3D с отслеживанием взгляда
03.01.2026 10:02:00 | iXBT.com

Бета-версия Realme UI 7.0 доступна для 11 новых моделей смартфонов
03.01.2026 09:08:00 | iXBT.com

Fender Audio представила свои первые беспроводные наушники с рекордным временем работы от батареи
03.01.2026 08:31:00 | iXBT.com

Skoda Superb 2025 в России подешевели до 3 млн рублей. По предзаказу машины ещё дешевле
03.01.2026 08:25:00 | iXBT.com

Анализ одной клетки: квантовые методы могут справиться с огромными и «зашумлёнными» наборами данных по отдельным клеткам, недоступными для классических методов
03.01.2026 08:18:00 | iXBT.com

Новые Rolls-Royce Cullinan в России подешевели за год на 25 млн рублей
03.01.2026 08:17:00 | iXBT.com

Дешевле аналогичных китайских кроссоверов: Nissan Magnite стал доступнее в России
03.01.2026 08:10:00 | iXBT.com

ИИ из Южной Кореи научился подбирать персональные вакцины от рака, нацеленные на предотвращение рецидивов
03.01.2026 08:05:00 | iXBT.com

Xiaomi развенчивает мифы о кольце зума в Xiaomi 17 Ultra Leica Edition: механика реальна, это не программный фейк
03.01.2026 07:55:00 | iXBT.com

Сардиния превращает углекислый газ в аккумулятор для «зелёной» энергетики: пилотная установка с резервуаром на 2000 тонн уже обеспечивает до 20 МВт мощности в течение 10 часов
03.01.2026 07:49:00 | iXBT.com

«Это не ценовая война». BMW обрушила цены на машины в Китае, снижение достигло 43 000 долларов
03.01.2026 07:48:00 | iXBT.com

Представлена HMD Boom E1: компактная Bluetooth-колонка с защитой IPX7
03.01.2026 07:43:00 | iXBT.com

QWERTY-клавиатура и магнитый внешний аккумулятор в одном устройстве. Представлен Clicks Power Keyboard
03.01.2026 07:34:00 | iXBT.com

Возрождение Pajero? Mitsubishi дразнит публику новым внедорожником
03.01.2026 07:27:00 | iXBT.com

Ракета Falcon 9 побывала в космосе 21 раз, вывела на орбиту спутник нового поколения и совершила 100-ю посадку (для серии) на сушу
03.01.2026 07:15:00 | iXBT.com

SpaceX испытала баржу для транспортировки Starship между Техасом и Флоридой
03.01.2026 07:10:00 | iXBT.com

«Искусственное солнце» Китая и термоядерный синтез сделали большой шаг вперед, преодолев барьер плотности плазмы
03.01.2026 07:05:00 | iXBT.com

Рынок складных смартфонов готовится к взрывному росту в 2026 году
03.01.2026 07:04:00 | iXBT.com

Agibot Q1: карманный гуманоидный робот из Китая может стать первым «персональным андроидом»
03.01.2026 06:53:00 | iXBT.com

Астрономы восстановили «бурную молодость» нашей галактики и смоделировали, как менялся Млечный Путь от ранней Вселенной до наших дней
03.01.2026 06:46:00 | iXBT.com

SpaceX выпускает уже миллионы тарелок Starlink ежегодно только в США
03.01.2026 06:46:00 | iXBT.com

Самое большое Солнце в 2026 году: Земля подошла к светилу на минимальную дистанцию
03.01.2026 06:36:00 | iXBT.com

Новый Zeekr впервые показали официально
03.01.2026 06:29:00 | iXBT.com

Starlink заработал в Армении. Илон Маск передал терминалы для подключения школ
03.01.2026 06:24:00 | iXBT.com

2026 год начался с магнитной бури планетарного масштаба
03.01.2026 06:19:00 | iXBT.com

Кембридж и Google DeepMind предложили первый научный тест «личности» для нейросетей
03.01.2026 05:03:00 | iXBT.com

Глава Instagram* предсказывает доминирование ИИ-контента и предлагает «цифровые отпечататки» для реальных фото
03.01.2026 04:56:00 | iXBT.com

Red Bull раскрыла дизайн своего первого гиперкара RB17 с атмосферным V10 и электромотором перед стартом продаж 2026 года
03.01.2026 04:37:00 | iXBT.com

OpenAI готовит новую аудио-модель в первом квартале 2026 года: компания нацелилась на собственные голосовые устройства
03.01.2026 04:24:00 | iXBT.com

IBM представила первый квантовый процессор Nighthawk и открыла ранний доступ к самому мощному Heron
03.01.2026 04:19:00 | iXBT.com

Samsung Freestyle+: портативный проектор с ИИ сам подстраивает фокус, геометрию и цвет под любую поверхность и освещение
02.01.2026 22:24:00 | iXBT.com

Минималистичный смартфон Punkt MC03 с AphyOS: ставка на приватность с разделением приложений на доверенную зону и «дикий веб»
02.01.2026 22:17:00 | iXBT.com

Новый космодром у экватора: Турция начала строительство в Сомали для доступа к выгодным орбитам
02.01.2026 21:44:00 | iXBT.com

Microsoft и ведущие биологи выявили уязвимости в проверке ИИ?сгенерированных генетических последовательностей
02.01.2026 21:33:00 | iXBT.com

Microsoft и ведущие биологи выявили уязвимости в проверке ИИ-сгенерированных генетических последовательностей
02.01.2026 21:33:00 | iXBT.com

Все новости

ЛЕНТА

Салат с фасолью, огурцами и яйцами
06.03.2026 06:33:54 | ПОВАРЁНОК.РУ

Подробности Control Resonant // Анонс RUINER 2 // Трейлер Cthulhu: The Cosmic Abyss
06.03.2026 06:01:07 | StopGame

Первый российский учебный дрон с ИИ попал в реестр Минпромторга
06.03.2026 02:30:52 | ferra.ru

ЦИК будет доставлять бюллетени в отдаленные села на беспилотниках
06.03.2026 02:02:31 | ferra.ru

В Москве нашли новый способ лечения редкого заболевания глаз у детей
06.03.2026 01:56:48 | ferra.ru

Учителей из Свердловской области научат распознавать тексты, написанные ИИ
06.03.2026 01:22:13 | ferra.ru

В Пензе научили ИИ предсказывать лесные пожары
06.03.2026 00:55:00 | ferra.ru

В России научили нейросеть находить рак молочной железы по КТ-снимкам за минуты
06.03.2026 00:31:15 | ferra.ru

В России разработали стандарт оценки алгоритмов распознавания лиц
06.03.2026 00:17:53 | ferra.ru

В Новосибирске создали неинвазивный глюкометр на графеновых сенсорах
05.03.2026 23:44:58 | ferra.ru

Российские физики впервые измерили свойства «муарового» графена
05.03.2026 23:14:47 | ferra.ru

В МАИ придумали, как сделать беспилотники легче без потери прочности
05.03.2026 22:57:36 | ferra.ru

В Новосибирске разработали ИИ-сервис для создания аудиокниг из научных текстов
05.03.2026 22:56:38 | ferra.ru

Эра тотальной русификации, предпочтения хакеров, и китайская экспансия
05.03.2026 22:52:25 | it-world

Российские биологи разгадали структуру белка при болезнях Альцгеймера
05.03.2026 22:38:32 | ferra.ru

Знакомьтесь, Ричард Джонс (цикл заметок о выдающихся питонистах)
05.03.2026 22:36:00 | Хабр

Путин призвал внедрять ИИ в образование без упрощения обучения
05.03.2026 22:12:40 | ferra.ru

В Сибири создали установку для безопасной утилизации ядерных отходов
05.03.2026 21:38:30 | ferra.ru

Простая АСУ ТП для вакуумной печи типа Tesla-PZ-810
05.03.2026 21:07:36 | Хабр

В Тольятти модернизировал линию контроля двигателей для Lada Niva
05.03.2026 21:05:24 | ferra.ru

WhatsApp* работает над запуском подписки с опциями кастомизации приложения — WABetaInfo
05.03.2026 20:26:34 | vc.ru

Судьба или заслуга??
05.03.2026 20:15:32 | Хабр

Exadata на Postgres, или старые архитектурные проблемы и их решение
05.03.2026 19:55:35 | Хабр

Self-Aware MCP Server: инструменты контекста реального мира для AI-агента
05.03.2026 19:53:07 | Хабр

Тачмак
05.03.2026 19:46:45 | ПОВАРЁНОК.РУ

Алсу изящно уколола Решетову, которая выходит замуж
05.03.2026 19:45:00 | Woman.ru

Пойти ли в облако? Ожидания и реальность
05.03.2026 19:25:07 | Хабр

Границы моего языка — это границы моего мира, или почему AGI недостижим с помощью LLM
05.03.2026 19:15:27 | Хабр

Обучаем нейросеть онлайн
05.03.2026 19:14:25 | Хабр

Обещания Apple и новый MacBook Neo
05.03.2026 18:52:24 | it-world

Шесть предметов, которые в СССР считались роскошью, а сейчас даром никому не нужны
05.03.2026 18:45:00 | Woman.ru

Сравнения ИИ-моделей для генерации изображений: Nano Banana Pro vs GPT Image 1.5
05.03.2026 18:36:04 | Хабр

Инсайдеры уточнили дату выхода Xiaomi 17 Max с аккумулятором на 8000 мА·ч
05.03.2026 18:30:42 | ferra.ru

Китайцы захватывают российский e-commerce
05.03.2026 18:29:54 | it-world

Единый реестр банковских карт россиян будет создан в 2027 году
05.03.2026 18:29:25 | ferra.ru

Смотреть все

ВСЯ ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro