Методы псевдонимизации (кодирование данных)

Дата: 28 декабря 2022

Хватов В.

Line

Использование контекстных методов защиты позволяет несколько снизить общие риски защиты информации, однако передаваемые исходные данные, содержащие персональные сведения, являются автономным носителем информации и получение к ним доступа несет риски для конфиденциальности физических лиц. В связи с этим выделяются методы защиты данных и связанные с ними риски защиты данных (то есть риски на основании самих данных без учета контекста).

Структурно данные о физических лицах можно представить в виде набора, определяемого своей структурой (атрибутами, полями или столбцами), в каждой строке которого (отдельной записи) содержится информация об отдельном физическом лице. С информационной точки зрения атрибуты можно разделить на:

  • Прямые идентификаторы - то есть поля, прямо указывающие на конкретное физическое лицо). К таким атрибутам относятся, например, номера телефонов, электронная почта, номер и серия паспорта, в некоторых случаях (для ограниченной группы) – фамилия имя и год рождения. В качестве прямого идентификатора может также выступать любая строка, однозначно указывающая на физическое лицо;

  • Косвенные идентификаторы (квази-идентификаторы) - атрибуты в совокупности позволяющие выделить из группы лиц, описываемой набором информации отдельное физическое лицо. Примером косвенных идентификаторов является, например, совокупность возраста, пола и размера зарплаты;

  • Чувствительные атрибуты – поля, содержащие полезную (изучаемую) информацию, ради которой набор создается и публикуется (передается в рамках информационного обмена). Примерами чувствительных атрибутов являются зарплата сотрудников, болезни, средний чек покупок и т.п.

Методы псевдонимизации – методы защиты персональных данных, при которых прямые и/или косвенные атрибуты в конкретных наборах данных заменяются на один или несколько искусственных идентификаторов.

Псевдонимизированные данные остаются при этом полезными для анализа и защищенными, если не существует способа получения за конечное время с ограниченными ресурсами дополнительной информации, позволяющей восстановить исходные значения псевдонимов.

Методы псевдонимизации могут пониматься достаточно широко и применяться как для защиты информации в пределах внутреннего контура организаций (против случайных утечек), так и для обмена данными с третьими сторонами. К преимуществам данных методов можно отнести их относительную простоту и эффективность для небольших по составу атрибутов публикуемых наборов. К недостаткам – относительно слабую защищенность к атакам выделения и атакам связывания, а в некоторых случаях к атакам прямого перебора и атакам по словарю [1].

Вероятность повторной идентификации при этом может быть оценена по следующей формуле:

\(P_{Риски~данных}~=~ \frac {k} {\langle R \rangle}~~\#(3)\)

Здесь R – максимально доступный объем ресурсов, больше которого затрачиваемые на расшифровку псевдонимов усилия не представляются приемлемыми, r – потраченные на взлом усилия, а k – ступенчатая функция, разграничивающая малые, средние и высокие риски вероятности. В частном случае атак на хешированные данные:

\(P_{Риски~данных}~=~ \frac {k} {\gamma}~~\#(4)\)

То есть вероятность повторной идентификации обратно пропорциональна времени, затрачиваемому на взлом информации, например, методом перебора («brute force attack»). В общем методы псевдонимизации можно разделить на простые и более комплексные.

Базовые методы псевдонимизации

Метод введения идентификатора записи

Метод состоит в замене части идентификаторов уникальными значениями (в пределах набора или более общей совокупности данных – генеральной совокупности). Основные техники:

  • Введение числового идентификатора/ счетчика – при этом вместо конкретных данных вводится их числовое значение, например, вместо “Иванов Иван Иванович” используется число “2967412”. При публикации набора отдельно сохраняется соответствие “Иванов Иван Иванович - 2967412”, безопасность в конечном счете зависит от надежности хранения справочника соответствия;

  • Замена идентификаторов на случайный цифробуквенный идентификатор в стиле GUID. Такой способ требует также хранения правил соответствия, что делает схему уязвимой, но позволительной для публикации внутри защищенного контура или обмена данными между приложениями.

Методы хэширования

Методы хэширования требуют применения односторонних криптографических функций, сопоставляющих исходное и модифицированное значение методами криптографии, не допускающими инверсии (возможности восстановить исходное значение). Наиболее известны две техники:

  • Применение обычных хэш-функций (например, MD5, SHA-1, SHA-2). Несмотря на видимость безопасности эта техника довольно уязвима: если известно к каким данным применена определенная функция, то такие данные доступны атакам прямого перебора (“brute force”) или атакам по словарю/радужным таблицам;

  • Применение хэш-функций «с солью». Это усложнение предыдущей техники, при котором к данным добавляется строка (“соль”), после чего к результату вновь применяется хэш-функция. Если “соль” – статическая строка (постоянная для всех наборов), то это ненамного увеличивает время взлома, а следовательно вероятность идентификации (взлома) хешированных данных остается значительной. Динамическая соль, особенно связанная с дополнительными криптографическими преобразованиями, значительно увеличивает время взлома;

  • Применение кодов аутентификации хэш-сообщения с ключом (HMAC, hash-based message authentication code). Данная техника расширяет использование “хеша с солью” на “хэш с криптографическим ключом”. В рамках такого способа преобразование инициируется набором ключей: на основе закрытого мастер-ключа k получают пару вторичных ключей – внутреннего K1 и внешнего K2. Затем проводится двухуровневая процедура преобразования. В рамках первого прохода создается внутренний хэш из исходного сообщения и внутреннего ключа. Второй проход создает окончательный код HMAC, полученный из внутреннего хэш результата и внешнего ключа. Метод может применяться к схемам обмена между двумя или более сторонами для защиты от инсайдеров или посредников, но не решает проблемы самой передачи исходных персональных данных за пределы организации.

Методы симметричного шифрования

Методы шифрования представляют из себя двунаправленный способ преобразования данных, надежно защищающий данные от атак посредников. Метод может успешно применяться во вспомогательных целях (таких как организация хранения), однако, такая техника делает данные или бесполезными (при невозможности их расшифровки) или уязвимыми при использовании, если метод расшифровки доступен третьим сторонам. Исключение составляет метод гомоморфного преобразования, рассматриваемый отдельно ниже.

Продвинутые методы псевдонимизации

Продвинутые методы псевдонимизации защищают данные через использование многоступенчатых схем с использованием криптографии. Хотя такие схемы не свободны от недостатков схем псевдонимизации, их сложная архитектура способна затруднить время взлома схемы и обеспечить решение задач интеграции информации (двусторонний или многосторонний обмен данными).

  • Методы гомоморфного шифрования. Гомоморфное шифрование — форма шифрования, позволяющая производить определённые математические действия с зашифрованным текстом и получать зашифрованный результат, который соответствует результату операций, выполненных с открытым текстом. Гомоморфное шифрование (особенно полное гомоморфное шифрование, поддерживающее и операцию сложения, и операцию умножения) чрезвычайно затратно с точки зрения производительности, а также ограничено классом задач, для которых можно применять такие методы. Методы часто применяются в виде вспомогательных примитивов, которые дополняются другими техниками и подходами (см. конфиденциальные вычисления). Непосредственное применение гомоморфного шифрования возможно для осуществления безопасного поиска, в системах голосования и других практических кейсах.

  • Полностью рандомизированная псевдонимизация. В рамках такого подхода все вхождения идентификатора в набор данных заменяется разными случайными псевдонимами: \(\newline ID\to( pseudo_{1},pseudo_{2},.. )~\#(5) \newline \newline\)

  • Методы асимметричной криптографии. Дают возможность создания пары ключей (k,K) и формирование на основании этих ключей схемы обмена информацией. Методы используются как вспомогательные для конфиденциальных вычислений или для контроля целостности через механизмы подписей. Сами по себе для защиты конфиденциальности приватных данных эти методы используются редко.

  • Групповые псевдонимы и кольцевые подписи. В данной технике на основании ассиметричной криптографии и специальной схемы обмена ключами формируется цифровая подпись, которая принадлежит одному из членов группы, но владелец подписи не может быть однозначно идентифицирован. Таким образом могут быть решены задачи анонимной авторизации. При групповых псевдонимах используется схожий подход, формирующий случайный псевдоним для любых идентификаторов, появляющихся в одной записи. Такой подход, может использоваться, например, для обработки данных в больших социальных сетях или при исследовании распространений эпидемий.

  • Цепочечные псевдо-идентификаторы (chaining mode). Этот метод основан на последовательном применении хэш-функций, объединенных в цепочку. Как правило это осуществляется с привлечением посредников. Такие методы могут использоваться для генерации динамической соли или в сложной коммуникационной среде, часть из участников которой выполняют роль посредников для остальных.

  • Криптографические конденсаторы. В рамках такого подхода для нескольких идентификаторов (ID1, ID2,…) строится комплексная структура, позволяющая объединять попарно (или более сложным образом) хэши идентификаторов, постепенно “сворачивая” несколько идентификаторов в более компактное представление – групповой хэш. Часто для построения таких алгоритмов используются структуры деревьев хэшей, например, дерево Меркла. Такие структуры могут поддерживать необходимую динамику построения для обмена данными без исходных идентификаторов между многими сторонами.

  • Доказательство без разглашения (Zero-Knowledge Proof, ZKP). Данный подход подразумевает проверку некоторых фактов без раскрытия конфиденциальности. Различают интерактивные схемы (обмен серией сообщения) и не интерактивные схемы, при которых проверка осуществляется за счет свойств проверяемых данных, которые могут быть вычислены на основе случайных вспомогательных сведений и доказать необходимое свойство (например, проверку кредитоспособности или доказательство личности) без раскрытия конфиденциальных атрибутов.

———