Методы обезличивания (анонимизация)

Дата: 28 декабря 2022

Хватов В.

Line

Методы обезличивания (иногда также называемые классическим обезличиванием или k-Anonymity моделью) нацелены на исключение связи отдельных атрибутов с идентификаторами. Основная идея для данного класса методов состоит в выделении групп схожих записей (классов эквивалентности), которые могут быть отнесены более чем к одному физическому лицу. В этом случае нарушается основное свойство определения персональных данных – соотнесение информации с прямо или косвенно определенным или определяемом физическом лицом. Размер такого класса эквивалентности (размер похожих записей) позволяет вычислить вероятность повторной идентификации:

\(P_{Риски~данных}~=~ \frac {k} {\langle Ĕ \rangle}~~\#(6)\)

Здесь 〈Ĕ〉 – минимальный размер всех классов эквивалентности внутри выделенного набора данных. Если такой размер определяется по количеству строк, в которых совпадают все косвенные атрибуты, то такую метрику называют k-Anonymity. В случае требования дополнительных статистических распределений в каждом классе эквивалентности используются более строгие метрики - ℓ-Diversity или 𝜏-Closeness.

Для построения классов эквивалентности в исходном наборе данных отбрасываются все прямые идентификаторы, выделяется набор косвенных идентификаторов (квази-идентификаторов), которые подвергаются обезличиванию по одной из перечисленных ниже техник. Получив обезличенный набор, производят разбиение на классы эквивалентности, после чего вычисляют необходимую метрику, сравнивая ее с заданным пороговым значением. В случае если вероятность повторной идентификации оказывается выше порогового значения (например, принятого в 10%, то есть минимальный размер класса эквивалентности – 10 записей), повторно применяют техники обезличивания с более сильными параметрами размытия.

К преимуществам данной группы методов следует отнести их хорошую детерминированность, устойчивость к атакам связывания, а также возможность вычисления метрик. С другой стороны, применение методов для больших наборов данных требует изрядных вычислительных затрат, а применение без дополнительных усложнений ограничено схемами односторонней коммуникации (то есть однонаправленная публикация).

Основные техники обезличивания

Техники обезличивания представляют собой методы преобразования данных, при которых отдельные атрибуты изменяют свое значение таким образом, чтобы позволять их объединение в общие группы/кластеры или разрывать связь с исходным значением атрибута. Степень вносимого искажения влияет на размер классов эквивалентности и вероятность повторной идентификации. Наиболее употребимые техники:

  • Обобщение (генерализация). Предполагает разбиение числовых значений на группы и представление частного значения атрибута его группой (например, вместо точного возраста указывается диапазон: 20–30; 30–40). Для текстовых или категориальных данных аналогичную роль играет выделение групп, куда включаются данные (например, для цвета волос – темные или светлые волосы, вместо брюнет, шатен, блондин, рыжий). Такой метод настраивается по своим границам (например, вместо границ для возраста 20–30, применяется группа 20-40) и по уровню глобальности (микро-агрегация против статистической агрегации по всему набору)

  • Маскеризация – является способом, применимым к текстовым данным, при котором часть символов заменяется на некоторый шаблонный (*). Например, в имени и фамилии оставляются только первые три символа, или для ИНН используются несколько первых цифр. Техника эквивалентна обобщению, так как в результате создаются кластеры одинаковых значений, влияющие на обезличивание.

  • Рандомизация – техника, при которой в числовые данные вносится погрешность. Аналогично для текстовых данных возможно перемешивание, при которых данные для одних записей меняются с данными из других записей. Хотя методы рандомизации непосредственно не влияют на размер класса эквивалентности, такие методы могут применяться для снижения влияния уникальных записей (например, потраченных сумм с высокой точностью, дающие возможность выделения индивидуальной записи из набора).

  • Подавление – техника, позволяющая исключать отдельные записи, целые столбцы или отдельные значения (ячейки). Исключение уникальных записей (например тех, которые после применения других техник остаются уникальными с размером класса эквивалентности равной 1) позволяет значительно снизить вероятность повторной идентификации без серьезного ущерба для полезности набора.

Многомерные обобщения алгоритмов классического обезличивания

На практике применение методов классического обезличивания может столкнуться с необходимостью постоянной подстройки методов при каждой публикации. Отчасти эта проблема решается применением многомерных алгоритмов, позволяющих на основании структуры данных построить итерационный процесс, направленный на применение вычислений вплоть до получения заданного порога вероятности или остановки процесса из-за слишком длительных вычислений. Некоторые подобные алгоритмы:

  • Datafly – эвристический алгоритм на основе жадных алгоритмов поиска (greedy search) с одномерным обобщением по всей предметной области;

  • Incognito – алгоритм обобщения строящий решетку, разбивающую исходные данные на относительно независимые центры (ячейки) обезличивания. В отличии от DataFly содержит встроенную функцию оптимизации.

  • Mondrian – жадный многомерный алгоритм, который рекурсивно разбивает обезличиваемый набор на области, каждая из которых содержит не менее k-записей. При этом используется метод медианного разделения по атрибуту с самым широким диапазоном значений.

  • ITER-CLUSTER (μ-Argus) – итеративный метод кластеризации, основанный на поиске ближайших соседей (ячеек) с похожими значениями.