データマスキングとは何ですか?
データマスキングとは、元の文字や数字を変更してデータを隠すプロセスです。規制とプライバシーの要件により、組織は顧客や事業について収集した機密データを保護する必要があります。データマスキングは、機密情報を変更することにより、組織のデータの偽バージョンを作成します。現実的で構造的に類似した変更を加えるために、さまざまな手法が用いられています。データがマスキングされると、元のデータセットにアクセスしない限り、リバースエンジニアリングをしたり、元のデータ値を突き止めたりすることはできません。
データマスキングにはどのようなユースケースがありますか?
データマスキング技術は、一般データ保護規則 (GDPR) などのデータプライバシー規制を満たすための組織の取り組みを支援します。個人を特定できる情報 (PII)、財務データ、保護対象医療情報 (PHI)、知的財産など、さまざまな種類のデータを保護できます。
次に、データマスキングのユースケースをいくつか見ていきます。
安全な開発
ソフトウェア開発およびテスト環境では、テスト目的で実際のデータセットが必要です。ただし、実際のデータを使用するとセキュリティ上の懸念が生じます。データマスキングにより、デベロッパーとテスターは、機密情報を公開することなく、元のデータに似た現実的なテストデータを使用して作業できます。開発およびテストサイクルにおけるセキュリティリスクを軽減します。
分析とリサーチ
データマスキングにより、データサイエンティストやアナリストは、個人のプライバシーを損なうことなく大規模なデータセットを扱うことができます。研究者はデータから貴重なインサイトと傾向を導き出し、プライバシー保護を確実にします。例えば、科学者は匿名化されたデータセットを使用して、新薬の有効性を研究したり、治療結果を分析したり、潜在的な副作用を調査したりできます。
外部コラボレーション
多くの場合、組織は外部のパートナー、ベンダー、またはコンサルタントとデータを共有する必要があります。特定のフィールドや属性をマスクすることで、組織は外部の関係者と共同作業を行いながら機密データを保護できます。
従業員の研修
データマスキングは、従業員のトレーニングセッションやソフトウェアのデモンストレーションに使用できます。機密データをマスクことで、組織は本物の顧客データやビジネスデータを公開することなく、現実的な例を示すことができます。従業員は、権限のないデータにアクセスしなくても、スキルを習得して練習できます。
データマスキングのタイプにはどのようなものがありますか?
次に、一般的なデータマスキングタイプをいくつか示します。
静的データマスキング
静的データマスキングとは、機密データを保存または共有する前に、一定のマスキングルールを適用するプロセスです。これは通常、頻繁に変更されないデータや、時間が経過しても変化しないデータに使用されます。ルールを事前に定義し、それをデータに一貫して適用することで、複数の環境で一貫したマスキングが確保されます。
詳細は複雑ですが、静的データマスキングプロセスの概要は次のとおりです。
- 機密データを特定して理解する
- マスキングルールを設計、開発する
- 適切なデータマスキングアルゴリズムを選択する
- 実際のデータにマスキングルールを適用する
その後、必要に応じてマスクされたデータを共有できます。
動的データマスキング
動的データマスキングは、マスキング技術をリアルタイムで適用します。ユーザーがアクセスまたはクエリを行うと、既存の機密データが動的に変更されます。主に、カスタマーサポートや医療記録処理などのアプリケーションにロールベースのデータセキュリティを実装するために使用されます。
動的データマスキングは次のように機能します。
- すべてのユーザーは、プロキシサーバー経由でデータベースと通信する
- ユーザーがデータの読み取りを要求すると、データベースプロキシはユーザーロール、特権、またはアクセス権限に基づいてマスキングルールを適用する
- 権限のあるユーザーは元のデータを受け取り、権限のないユーザーはマスクされたデータを受け取る
このプロセスは事前の準備を必要としませんが、パフォーマンスに影響を与える可能性があります。
決定論的データマスキング
決定論的データマスキングにより、同じ入力値が常に同じ出力値にマスクされます。例えば、あるインスタンスで特定の名前が「ジョン」としてマスクされている場合、システム全体で常に「ジョン」としてマスクされます。
決定論的マスキング技術には、多くの場合、元のデータ列とマスクされた値の間で一貫したマッピングが維持されるデータ置換またはトークン化が含まれます。
オンザフライデータマスキング
オンザフライデータマスキングはメモリ内の機密データをマスクするため、変更されたデータをデータベースに保存する必要はありません。継続的デプロイのパイプラインや、本番環境と非本番環境の間でデータが頻繁に移動する複雑な統合シナリオで役立ちます。パイプラインの必要な段階で、アプリケーションはデータをマスクし、それをパイプラインの次の段階に渡します。
統計の難読化
統計データの難読化には、データ内の統計的特性と関係を維持するように機密データの値を変更することが含まれます。これにより、マスクされたデータでも元のデータの全体的な分布、パターン、相関関係が維持され、正確な統計分析が可能になります。統計データの難読化技術には、データに数学関数または摂動アルゴリズムを適用することが含まれます。
一般的なデータマスキング技術にはどのようなものがありますか?
データ保護に使用できるアルゴリズムはいくつかあります。一般的なデータマスキング方法をいくつか紹介します。
ランダム化
ランダム化では、機密データを元のデータと相関関係のないランダムに生成された値に置き換えます。例えば、名前、住所、その他の個人を特定できる情報を、架空の値またはランダムに選択された値に置き換えることができます。
代用
代替マスキングには、機密データを類似しているが架空のデータに置き換えることが含まれます。例えば、実際の名前を定義済みのリストの名前に置き換えることができます。アルゴリズムを使用して、類似しているが偽のクレジットカード番号を生成することもできます。
シャッフル
シャッフルでは、統計プロパティを保持して個々のレコードを識別できないようにするために、データセット内の値を並べ替えます。この手法は、データ内の関係を維持するためによく使用されます。
例えば、データテーブルでは、列のデータをランダムにシャッフルして行の値を変更できます。実際には、名前や連絡先情報を切り替えても、顧客とその取引との関係を維持できます。
暗号化
暗号化マスキングでは、暗号化アルゴリズムを使用して機密データを暗号化します。データを判読できない形式に変換すると、復号化キーを持つ権限のあるユーザーのみが元のデータにアクセスできます。この手法はより高いレベルのデータセキュリティを提供しますが、データ分析には復号化が必要なため、クエリのパフォーマンスに影響します。
ハッシング
ハッシュは、データを固定長の文字列に変換する変換手法です。これは通常、元の値が不要でデータを検証するだけでよい場合に、パスワードやその他の機密情報をマスクするために使用されます。
トークン化
トークン化では、本番データをランダムに生成されたトークンまたは参照値に置き換えます。元のデータを別の安全な場所に保存し、処理または分析中にトークンを代わりに使用します。トークン化は、機密情報が公開されるリスクを最小限に抑えながら、データの完全性を維持するのに役立ちます。
ヌル化
ヌル化 (または空白化) は、機密データをヌル値または空白スペースに置き換えるデータマスキングソリューションです。これにより、データセットからデータが効果的に削除されます。この方法は、データの形式や構造を維持したいが、特定の情報を隠さなければならない場合に適しています。
データマスキングにはどのような課題がありますか?
次に、データマスキングの一般的な課題について説明します。
属性保存
研究や分析では、データマスキングによって特定のデータタイプの元のデータ属性が保持されることが重要です。データマスキングツールが元のデータタイプを保持しているか、関連するデータカテゴリの頻度を保持していることを確認する必要があります。
例えば、あるツールがクレジットカードの詳細をわかりにくくし、顧客データやカードカテゴリの統計情報の人口統計情報を変更してしまうと、分析に影響が出る可能性があります。ランダム化やトークン化などの特定のデータマスキングプロセスでは、属性の保存が困難になることがあります。
セマンティック完全性
生成された偽の値は、さまざまなデータタイプに関連するビジネスルールと制約に準拠している必要があります。例えば、給与は特定の範囲内である必要があり、国の識別番号はあらかじめ決められた形式に従う必要があります。セマンティック完全性を維持するのは難しいですが、マスクされたデータを意味のある現実的なものに保つことはできます。
データの一意性
従業員 ID 番号など、元のデータに一意性が必要な場合、データマスキング手法では元のデータを置き換える一意の値を指定する必要があります。主要項目に一意性がないと、競合や矛盾が生じる可能性があります。
既存のワークフローとの統合
データマスキングを既存のワークフローに統合することは、特に実装の初期段階では難しい場合があります。従業員は、新しいプロセスやテクノロジーに適応する際に不便を感じる可能性があります。スムーズな統合を実現し、混乱を最小限に抑えるために、組織は慎重な計画、利害関係者の協力、およびユーザーの懸念事項への対処に重点を置く必要があります。
AWS はマスキングの要件をどのようにサポートできますか?
Amazon Web Services (AWS) には、データマスキング機能が組み込まれたサービスが多数あります。次に例を示します。
- Amazon Transcribe は音声をテキストに自動的に変換し、リクエストに応じて、機密データをマスキングできます。
- Amazon Redshift は、SQL を使用して、データウェアハウス、運用データベース、データレイク全体の構造化データと半構造化データを分析します。ロールベースのアクセス制御、行レベルのセキュリティ、列レベルのセキュリティ、および動的データマスキング技術をサポートしています。
- Amazon Simple Notification Service (Amazon SNS) は通知サービスです。これを使用して、送信中の機密データを検出、マスク、保護できるデータ保護ポリシーを定義できます。
また、複雑なデータマスキング要件に対応する既存の実装ガイドもあります。例えば、医療機関で画像やテキスト内の健康データを識別してマスクするには、AI を利用した健康データマスキングガイダンスが役立ちます。このガイダンスでは、以下のサービスを使用しています。
- Amazon Comprehend Medical は、テキスト本文に含まれる健康データを検出する
- Amazon Rekognition により、画像内のテキストが識別される
- Amazon API Gatewayと AWS Lambda は、この機能用の API インターフェイスを提供します
- AWS Identity and Access Management (IAM) が API リクエストを承認
AWS Marketplace にあるいくつかの既成のデータマスキングソリューションの中から選択することも検討してください。
今すぐアカウントを作成して、AWS でデータマスキングの使用を開始しましょう。