Информационные методы защиты (AI/ML)

Дата: 28 декабря 2022

Хватов В.

Line

Данная группа методов основана применении методов машинного обучения или статистического подхода. Методы объединяет идея замены исходных наборов данных новыми информационными массивами, сохраняющими свойства исходных наборов, но с измененными значениями.

Синтетические данные

Синтетические данные – наборы, сгенерированные системой для замены реальных значений. Такие наборы представляют данные, которые в теории не соотносятся с реальными физическими лицами, но сохраняют закономерности исходного набора. Различают следующие методы:

  • Семплинг – публикация небольшой части исходного набора со значениями, как правило отредактированным ручным образом. Такой метод имеет ограниченное применение из-за ограниченности использования или больших трудозатрат на генерацию.

  • Алгоритмические наборы синтетических данных. Генерация таких данных осуществляется в соответствии с заданными алгоритмами. Достоинство таких наборов – предсказуемый профиль сгенерированного набора. Недостаток – чрезмерная жесткость алгоритмов, описание которых для каждого набора требует дополнительных исследовательских затрат.

  • Синтетические данные на основании механизмов машинного обучения. Специально подобранные нейронные сети позволяют генерировать новые наборы с использованием моделей Copulas, Autoregressive, Deep Learning. Типовыми решаемыми задачами является автоматическое распознавание персональных данных и создание данных с близкой к исходным функцией распределения.

Несмотря на свою искусственность синтетические данные все еще могут сохранять информацию по исходным данным (например, близкие к редким значениям атрибутов сгенерированные синтетические данные), поэтому их безопасность может оценивать так же, как и для случая классического обезличивания с вычислением дистанции между исходным и синтезированным набором (метрика не различности). Чем ближе исходный и синтезированный набор – те полезнее синтетические данные, но тем выше риски повторной идентификации.

Дифференциальная приватность

Дифференциальная приватность представляет собой схему защиты персональных данных (например, запросы к API), передаваемых в виде потока запросов и ответов, в которых с помощью алгоритмических функций или искусственного интеллекта данные искажаются за счет добавления случайного шума. Размер утечки информации от одного запроса к базе данных можно минимизировать, но он не будет равен нулю. При каждом запросе к базе с какой-нибудь функцией суммарная утечка информации увеличивается. По мере увеличения количества запросов, утечка от каждого из них может начать расти.

Общее количество допустимой утечки часто называют бюджетом приватности, и он определяет количество разрешенных запросов и точность результатов. Если установить бюджет слишком большим, то велика вероятность того, что произойдёт утечка важных данных. Если установить его слишком маленьким, то результаты запросов могут быть бесполезными.

Различают следующие методы дифференциальной приватности:

  • Локальная дифференциальная приватность – методы шума применяются к небольшим наборам данных.

  • Глобальная дифференциальная приватность – потоковые данные.

Преимуществом методов дифференциальной приватности является ее композиционный характер (нет необходимости выделять конфиденциальные атрибуты, а также устойчивость к атакам связывания (через вспомогательную информацию). К недостаткам следует отнести сложность реализации и ограничения на «бюджет приватности».

Федеративное обучение

Федеративное обучение представляет собой метод, основанный на машинном обучении, при котором вместо перемещения данных перемещается модель, обучаемая на отдельных периферийных устройствах. Для этого используются методы итеративного обучения, расчета ковариативного сдвига, сдвига концепции, функции расчета несбалансированности.

Такой способ позволяет нескольким участникам построить общую надежную модель машинного обучения без совместного использования данных, что позволяет решать такие важные проблемы, как конфиденциальность данных, безопасность данных, права доступа к данным и доступ к разнородным данным. Различают:

  • Централизованное федеративное обучение. Осуществляется с использованием центрального сервера, “подтягивающего” параметры модели обучения от подчиненных узлов.

  • Децентрализованное федеративное обучение. Все узлы участвуют в обучении и координируют обмен данными в порядке достижения консенсуса.

К преимуществам метода можно отнести его высокую безопасность в части конфиденциальности, к недостаткам – большую трудоемкость при реализации, невысокую устойчивость к изменению атрибутного состава данных.

Внедрение объектов

Внедрение (Embedding) представляет собой псевдонимизацию, выполненную для разных значений атрибутов с использованием искусственного интеллекта. Суть метода состоит в кластеризации информации и выделения общих (близких) векторов значений атрибутов, а затем их замена на обобщенный идентификатор.

Метод требует многочисленных экспериментов и ограничен для использования в задачах машинного обучения при относительной стабильности состава атрибутов. Недостатком метода также является его высокая трудоемкость.