
Новое исследование выявило серьёзную проблему конфиденциальности в одном из крупнейших открытых наборов данных для обучения моделей генерации изображений — DataComp CommonPool. В этом наборе, содержащем на 2023 год 12,8 миллиардов образцов данных, обнаружены миллионы изображений паспортов, кредитных карт, свидетельств о рождении и других документов, содержащих персональную информацию (PII).
Исследование сосредоточилось на небольшой части (0,1%) данных. Даже в этой выборке были найдены тысячи изображений, включая распознаваемые лица и документы, удостоверяющие личность. Исходя из этого, учёные оценили общее количество изображений с PII в сотнях миллионов. В частности, было обнаружено более 800 подтверждённых документов о трудоустройстве (резюме и сопроводительные письма), многие из которых содержали конфиденциальную информацию, такую как данные о состоянии здоровья, результаты проверок биографических данных, даты рождения и места рождения иждивенцев. Связывание резюме с онлайн-профилями людей позволило исследователям получить доступ к контактной информации, государственным идентификаторам, социодемографическим данным, фотографиям лиц, домашним адресам и контактной информации других людей (например, рекомендателей).

Набор DataComp CommonPool, созданный как продолжение набора данных LAION-5B (использованного для обучения таких моделей, как Stable Diffusion и Midjourney), собирал данные путём веб-скрейпинга в период с 2014 по 2022 год. Хотя создатели CommonPool заявляли о его предназначении для академических исследований, лицензия не запрещала коммерческое использование. Учитывая, что набор данных был скачан более 2 миллионов раз за последние два года, и что источники данных CommonPool и LAION-5B схожи, вероятно, что аналогичная информация присутствует и в LAION-5B, а также в других моделях, обученных на тех же данных.
Авторы исследования отмечают, что автоматическое размытие лиц, применённое создателями CommonPool, оказалось неэффективным: алгоритм пропустил более 800 лиц в исследуемой выборке, что указывает на пропуск около 102 миллионов лиц во всём наборе данных. Кроме того, не применялись фильтры для распознавания текстовых строк PII, таких как адреса электронной почты или номера социального страхования. Хотя платформа Hugging Face, распространяющая CommonPool, предоставляет инструмент для удаления личной информации, это требует, чтобы люди знали о существовании своих данных в наборе.
Проблема усугубляется тем, что даже удаление данных из набора не гарантирует полной защиты конфиденциальности, если модель уже обучена на этих данных. Авторы исследования призывают сообщество специалистов по машинному обучению переосмыслить распространённую практику неконтролируемого веб-скрейпинга и указать на возможные нарушения действующих законов о защите данных, а также на ограничения возможностей этих законов в защите конфиденциальности. В частности, действующие законы о защите данных в Европе и Калифорнии не всегда распространяются на исследователей, создающих и курирующих такие наборы данных, а также содержат исключения для «общедоступной» информации.
-
20.07.2025 13:59:00 | iXBT.com
20.07.2025 13:27:00 | iXBT.com
20.07.2025 12:27:00 | iXBT.com
20.07.2025 08:52:00 | iXBT.com
20.07.2025 08:39:00 | iXBT.com
20.07.2025 07:06:00 | iXBT.com
20.07.2025 06:15:00 | iXBT.com
20.07.2025 06:06:00 | iXBT.com
20.07.2025 05:42:00 | iXBT.com
20.07.2025 05:39:00 | iXBT.com
20.07.2025 00:11:00 | iXBT.com
19.07.2025 22:47:00 | iXBT.com
19.07.2025 21:48:00 | iXBT.com
19.07.2025 21:46:00 | iXBT.com
19.07.2025 20:55:00 | iXBT.com
19.07.2025 20:29:00 | iXBT.com
19.07.2025 19:58:00 | iXBT.com
19.07.2025 19:17:00 | iXBT.com
19.07.2025 18:58:00 | iXBT.com
19.07.2025 18:37:00 | iXBT.com
19.07.2025 18:24:00 | iXBT.com
19.07.2025 18:05:00 | iXBT.com
19.07.2025 17:59:00 | iXBT.com
19.07.2025 17:34:00 | iXBT.com
19.07.2025 15:55:25 | TechCult.ru
19.07.2025 15:53:00 | iXBT.com
19.07.2025 15:26:00 | iXBT.com
19.07.2025 15:15:00 | iXBT.com
19.07.2025 14:37:00 | iXBT.com
19.07.2025 13:46:00 | iXBT.com
19.07.2025 13:37:00 | iXBT.com
-
20.07.2025 21:52:43 | vc.ru
20.07.2025 21:45:00 | ferra.ru
20.07.2025 21:00:00 | ferra.ru
20.07.2025 20:15:00 | ferra.ru
20.07.2025 19:38:09 | vc.ru
20.07.2025 19:30:00 | ferra.ru
20.07.2025 18:45:00 | ferra.ru
20.07.2025 18:21:32 | Woman.ru
20.07.2025 17:15:00 | ferra.ru
20.07.2025 17:10:00 | ГАСТРОНОМЪ
20.07.2025 17:05:02 | Хабр
20.07.2025 16:44:59 | Хабр
20.07.2025 15:16:24 | Woman.ru
20.07.2025 15:00:00 | ГАСТРОНОМЪ
20.07.2025 14:59:53 | ferra.ru
20.07.2025 14:59:25 | vc.ru
Техническая поддержка проекта ВсеТут