Хабы: Машинное обучение, Законодательство в IT
Всем привет!
На связи команда хакатонщиков “Старые Бауманцы” и я - Саша Зазнобин.
Сегодня хочу поговорить с вами о такой малоприятной теме как защита персональных данных. Если вы точно знаете, чего хотите от этой статьи - листайте в конец, там метрики разных моделей в табличном виде. С остальными продолжим вдумчивую беседу по порядку.
Мировой ландшафт в этой части воистину впечатляет тут и 152-ФЗ в России, и более 20 разных законов действующих по своему в разных штатах США и Генеральный регламент ЕС о защите персональных данных.
Единственное разумное объяснение всего это регуляторного фестиваля для меня - это то, что рептилойды-инопланетяне, тайно контролирующие землю, испугались рывка технологического прогресса в искусственном интеллекте и через эти законы пытаются затормозить прогресс. Все остальные объяснения звучат просто несостоятельно. Впрочем вернемся к основной теме.
Итак, сегодня мы будем соблюдать закон о персональных данных (иначе говоря побеждать заговор рептилойдов) через маскировку персональных данных.То есть мы их будем выявлять и маскировать - а потом обрабатывать данные так как нашей душеньке угодно.
Для этого существует отдельный класс задач в data science: Named Entity Recognition сокращенно (NER) — технология обработки естественного языка, направленная на выделение определенных сущностей в тексте, таких как имена людей, географические объекты, названия организаций, даты, номера телефонов и другие категории.
Основная цель в рамках поставленной задачи NER для маскирования персональных данных — автоматически распознавать и скрывать (маскировать) чувствительную информацию в текстах.
Читать далее