Что такое маскировка данных?
Маскировка данных – это процесс сокрытия данных путем изменения исходных букв и цифр. В соответствии с нормативными требованиями и требованиями конфиденциальности организации должны защищать собираемые ими конфиденциальные данные о своих клиентах и операциях. Маскировка данных создает поддельные версии данных организации путем изменения конфиденциальной информации. Для создания реалистичных и структурно схожих изменений используются различные методы. Если данные защищены маскировкой, то без доступа к исходному набору данных невозможно провести их восстановление или вернуться к исходным значениям.
Каковы варианты использования маскировки данных?
Методы маскировки данных помогают организации соблюдать правила конфиденциальности данных, такие как Общий регламент по защите данных (GDPR). Вы можете защитить многие типы данных, такие как личная информация (PII), финансовые данные, защищенная медицинская информация (PHI) и интеллектуальная собственность.
Далее мы рассмотрим некоторые варианты использования маскировки данных.
Безопасная разработка
Среды разработки и тестирования программного обеспечения требуют реальных наборов данных для тестирования. Однако использование реальных данных вызывает проблемы безопасности. Маскировка данных позволяет разработчикам и тестировщикам взаимодействовать с реалистичными тестовыми данными, похожими на исходные, но без раскрытия конфиденциальной информации. Это снижает риски безопасности в циклах разработки и тестирования.
Аналитика и исследования
Маскировка данных позволяет специалистам по обработке и анализу данных работать с большими наборами данных без ущерба для личной конфиденциальности. Исследователи извлекают ценную информацию и тенденции из данных и обеспечивают защиту конфиденциальности. Например, ученые могут использовать анонимные наборы данных для изучения эффективности новых лекарств, анализа результатов лечения или изучения потенциальных побочных эффектов.
Внешнее сотрудничество
Организациям часто приходится делиться данными с внешними партнерами, поставщиками или консультантами. Маскируя определенные поля или атрибуты, организации могут сотрудничать с внешними сторонами и при этом защищать конфиденциальные данные.
Обучение сотрудников
Маскировку данных можно использовать для обучения сотрудников или демонстрации программного обеспечения. Маскируя конфиденциальные данные, организации могут приводить реалистичные примеры, не раскрывая подлинные данные клиентов или бизнеса. Сотрудники могут обучаться и отрабатывать навыки без необходимости доступа к данным, на которые у них нет прав.
Какие существуют типы маскировки данных?
Далее мы опишем несколько распространенных типов маскировки данных.
Статическая маскировка данных
Статическая маскировка данных – это процесс применения фиксированного набора правил маскировки к конфиденциальным данным перед их сохранением или совместным использованием. Он обычно используется для данных, которые не часто меняются или остаются неизменными с течением времени. Вы заранее определяете правила и последовательно применяете их к данным, что обеспечивает единообразное маскировка в нескольких средах.
Хотя детали сложны, вот ниже приведен процесса статического маскировки данных.
- Идентифицируйте и изучите конфиденциальные данные.
- Разработайте и сформулируйте правила маскировки.
- Выберите подходящие алгоритмы маскировки данных.
- Примените правила маскировки к фактическим данным.
Затем при необходимости вы можете поделиться замаскированными данными.
Динамическая маскировка данных
При динамической маскировке данных применяются методы маскировки в реальном времени. Это позволяет динамически изменять существующие конфиденциальные данные по мере обращения к ним пользователей. Такой метод в основном используется для реализации защиты данных на основе ролей в таких приложениях, как поддержка клиентов или обработка медицинских записей.
Динамическая маскировка данных работает следующим образом:
- Все пользователи взаимодействуют с базой данных через прокси-сервер
- Когда пользователи запрашивают чтение данных, прокси-сервер базы данных применяет правила маскировки на основе ролей пользователей, привилегий или разрешений доступа
- Авторизованные пользователи получают исходные данные, в то время как неавторизованные пользователи получают замаскированные данные
Хотя процесс не требует предварительной подготовки, он может повлиять на производительность.
Детерминированная маскировка данных
Детерминированная маскировка данных обеспечивает последовательную маскировку одного и того же входного значения под одно и то же выходное значение. Например, если конкретное имя в одном случае замаскировано как «Иван», во всей системе оно всегда будет замаскировано как «Иван».
Методы детерминированного маскировки часто включают замену или токенизацию данных, при которых сохраняется согласованное сопоставление исходного столбца данных с замаскированными значениями.
Маскировка данных «на лету»
Маскировка данных «на лету» маскирует конфиденциальные данные в памяти, поэтому нет необходимости хранить измененные данные в базе данных. Это удобно для конвейеров непрерывного развертывания или сложных сценариев интеграции, когда данные часто перемещаются между производственной и непроизводственной средами. На требуемом этапе конвейера приложение маскирует данные, а затем передает их на следующий этап конвейера.
Скрытие статистических данных
Скрытие статистических данных включает в себя изменение значений конфиденциальных данных таким образом, чтобы сохранить статистические свойства и взаимосвязи в данных. Это гарантирует, что замаскированные данные сохраняют общее распределение, закономерности и корреляции исходных данных для точного статистического анализа. Методы скрытия статистических данных включают применение к данным математических функций или алгоритмов возмущений.
Каковы распространенные методы маскировки данных?
Существует несколько алгоритмов, которые можно использовать для защиты данных. Вот несколько распространенных методов маскировки данных.
Рандомизация
При рандомизации вы заменяете конфиденциальные данные случайным образом сгенерированными значениями, которые не коррелируют с исходными данными. Например, вы можете заменить имена, адреса или другую личную информацию вымышленными или случайно выбранными значениями.
Замена
Маскировка заменой предполагает замену конфиденциальных данных аналогичными, но фиктивными данными. Например, можно заменить фактические имена именами из предопределенного списка. Вы также можете использовать алгоритмы для генерации похожих, но поддельных номеров кредитных карт.
Перемешивание
При перемешивании вы изменяете порядок значений в наборе данных, чтобы сохранить статистические свойства и сделать отдельные записи неидентифицируемыми. Этот метод обычно используется для сохранения взаимосвязей в данных.
Например, в таблице данных можно произвольно перемешивать данные столбцов, чтобы значения строк менялись. На практике вы можете сохранить связь между клиентом и его транзакциями, меняя имена и контактные данные.
Шифрование
Благодаря маскировке шифрованием вы шифруете конфиденциальные данные с помощью криптографических алгоритмов. Вы преобразуете данные в нечитаемый формат, и только авторизованные пользователи с ключами дешифрования могут получить доступ к исходным данным. Этот метод обеспечивает более высокий уровень безопасности данных, но влияет на производительность запросов, поскольку для анализа данных требуется расшифровка.
Хеширование
Хеширование – это метод, который преобразует данные в строку символов фиксированной длины. Обычно используется для маскировки паролей или другой конфиденциальной информации, где исходное значение не требуется, и вам просто нужно проверить данные.
Токенизация
При токенизации вы заменяете производственные данные случайным образом сгенерированным токеном или эталонным значением. Вы храните исходные данные в отдельном безопасном месте и используете токен в качестве замены во время обработки или анализа. Токенизация помогает поддерживать целостность данных, сводя к минимуму риск раскрытия конфиденциальной информации.
Обнуление
Обнуление (или затемнение) – это решение для маскировки данных, которое заменяет конфиденциальные данные нулевыми значениями или пробелами. Это эффективно удаляет данные из набора данных. Этот подход применим в тех случаях, когда необходимо сохранить формат или структуру данных, но конкретная информация должна быть скрыта.
Какие проблемы возникают при маскировке данных?
Далее мы обсудим распространенные проблемы маскировки данных.
Сохранение атрибутов
Для исследований и аналитики важно, чтобы при маскировании данных сохранялись исходные атрибуты данных для определенных типов данных. Необходимо убедиться в том, что средства маскирования данных сохраняют исходные типы данных или частоту связанных с ними категорий данных.
Например, если инструмент изменяет демографическое представление данных клиентов или статистики категорий карт, скрывая данные кредитной карты, это может повлиять на аналитику. Сохранение атрибутов может оказаться сложной задачей при некоторых процессах маскировки данных, таких как рандомизация или токенизация.
Семантическая целостность
Сгенерированные поддельные значения должны соответствовать бизнес-правилам и ограничениям, связанным с различными типами данных. Например, заработная плата должна соответствовать определенному диапазону, а национальные идентификационные номера должны соответствовать заранее определенному формату. Сохранить семантическую целостность непросто, но это гарантирует, что замаскированные данные останутся значимыми и реалистичными.
Уникальность данных
В случаях, когда исходные данные требуют уникальности, например идентификационные номера сотрудников, метод маскировки данных должен заменять исходные данные уникальными значениями. Отсутствие уникальности в ключевых областях может привести к потенциальным конфликтам или несоответствиям.
Интеграция с существующими рабочими процессами
Интеграция маскировки данных в существующие рабочие процессы может оказаться сложной задачей, особенно на начальных этапах внедрения. Сотрудники могут испытывать неудобства при адаптации к новым процессам и технологиям. Чтобы обеспечить бесперебойную интеграцию и минимизировать сбои, вашей организации следует сосредоточиться на тщательном планировании, сотрудничестве с заинтересованными сторонами и решении проблем пользователей.
Как AWS может поддержать ваши требования к маскированию данных?
Существует множество предложений Amazon Web Services (AWS) со встроенными возможностями маскировки данных. Ниже приведены некоторые примеры.
- Amazon Transcribe автоматически преобразует речь в текст и может маскировать конфиденциальные данные по запросу.
- В Amazon Redshift применяется SQL для анализа структурированных и полуструктурированных данных в хранилищах данных, операционных базах данных и озерах данных. Этот сервис поддерживает управление доступом на основе ролей, безопасность на уровне строк, безопасность на уровне столбцов и методы динамического маскировки данных.
- Простой сервис уведомлений Amazon (Amazon SNS) – это сервис уведомлений. Его можно использовать для определения политик защиты данных, позволяющих обнаруживать, маскировать и защищать конфиденциальные данные при передаче.
У нас также есть руководства по внедрению сложных требований к маскированию данных. Например, руководство по маскированию медицинских данных на основе искусственного интеллекта помогает медицинским организациям идентифицировать и маскировать медицинские данные в изображениях или тексте. В данном руководстве используются следующие сервисы:
- Amazon Comprehend Medical: обнаруживает медицинские данные в виде текстового текста
- Amazon Rekognition: идентифицирует текст на изображении
- API шлюз Amazon и AWS Lambda: предоставляют API-интерфейс для этой функции
- Управление идентификацией и доступом AWS (AWS IAM): авторизует запросы API
Вы также можете выбрать одно из нескольких готовых решений для маскировки данных на торговой площадке AWS.
Создайте аккаунт уже сегодня и начните работу с маскировкой данных на AWS.
AWS: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.