Amazon Web Services ブログ

AWS Clean Rooms の差分プライバシーは、ユーザーデータのプライバシー保護を強化します (プレビュー)

11月29日より、AWS Clean Rooms のディファレンシャルプライバシー (プレビュー) を使用して、数学的に裏付けられた直感的なコントロールを数ステップで行うことで、ユーザーのプライバシーを保護できるようになりました。AWS Clean Rooms のフルマネージド機能なので、ユーザーの再識別を防ぐために事前にプライバシーの差別化を行う必要はありません。

AWS Clean Rooms Differential Privacy は、コラボレーションにおける集約的な洞察の生成における個人のデータの寄与を難読化します。これにより、幅広い SQL クエリを実行して、広告キャンペーン、投資決定、臨床研究などに関する洞察を得ることができます。

差分プライバシーの概要
プライバシーの差異は新しいものではありません。これは、統計的および機械学習に基づく分析と互換性のあるプライバシーの強力な数学的な定義であり、米国国勢調査局だけでなく、膨大なデータを持つ企業でも使用されています。

差分プライバシーは、カウントクエリ、ヒストグラム、ベンチマーキング、A/Bテスト、機械学習を使用した人口分析など、大規模なデータセットを含むさまざまなユースケースに役立ちます。たとえば、数人の個人を追加または削除しても全体的な結果への影響はわずかです。

次の図は、差分プライバシーを SQL クエリに適用した場合の仕組みを示しています。

アナリストがクエリを実行すると、プライバシーの差異により、実行時にクエリ結果に慎重に調整された量のエラー (ノイズとも呼ばれる) が加わります。これにより、クエリ結果が正確で有意義な洞察が得られるように保ちながら、個人の影響が隠されます。ノイズは、データセットに含まれる可能性のある個人の有無を隠すように注意深く微調整されます。

差分プライバシーには、プライバシーバジェットと呼ばれる別の要素もあります。プライバシーバジェットは、クエリが実行されるたびに消費される有限のリソースであり、データセットで実行できるクエリの数を制御します。これにより、ノイズを平均化して個人に関する個人情報が明らかになることがなくなります。プライバシーの制限が完全になくなると、テーブルが増えるか更新されるまで、テーブルに対してクエリを実行できなくなります。

ただし、差分プライバシーの実装は容易ではありません。なぜなら、この手法を効果的に適用するには、数学的に厳密な公式や理論を深く理解する必要があるからです。また、ユーザーがクエリ結果の有用性に悪影響を及ぼさずにユーザーのプライバシーを保護するには、適切なノイズレベルを計算する必要があるため、差分プライバシーの設定も複雑な作業です。

また、顧客は、パートナーが自社のデータに対して非常に複雑でカスタマイズされたクエリなど、さまざまな分析を実行できるようにしたいと考えています。この要件は、集計、結合、変換などのさまざまなクエリコンポーネントを処理する際のノイズのキャリブレーションには複雑な計算が必要なため、差分プライバシーではサポートが困難です。

AWS Clean Rooms Differential Privacy は、数回のクリックで数学的に裏付けられたコントロールでユーザーのプライバシーを保護できるようにするために作成されました。

AWS Clean Rooms における差分プライバシーの仕組み
差分プライバシーは非常に高度な技術ですが、AWS Clean Rooms Differential Privacy を使用すると、数学的に裏付けられた柔軟で直感的なコントロールにより、簡単に適用してユーザーのプライバシーを保護できます。データ提供能力のあるメンバーとして AWS Clean Rooms コラボレーションを開始または参加した後、ほんの数ステップで使用を開始できます。

AWS Glue データカタログ内のテーブルへの参照となる設定済みのテーブルを作成し、設定したテーブルにカスタム分析ルールを追加する際に、差分プライバシーを有効にすることを選択します。

次に、設定したテーブルを AWS Clean Rooms コラボレーションに関連付け、コラボレーションで異なるプライバシーポリシーを設定して、テーブルをクエリに使用できるようにします。デフォルトポリシーを使用してセットアップをすばやく完了したり、特定の要件に合わせてカスタマイズしたりできます。このステップの一部として、以下を構成します。

プライバシー予算
イプシロンと呼ばれる値として数値化すると、プライバシーバジェットはプライバシー保護のレベルを制御します。これは、情報が複数のテーブルに存在する可能性があるユーザーのプライバシーを保護することが目的であるため、コラボレーションで異なるプライバシーで保護されているすべてのテーブルに適用される共通のリソースです。プライバシーバジェットは、テーブルでクエリが実行されるたびに消費されます。コラボレーション期間中はいつでもプライバシー予算の値を柔軟に増やし、暦月ごとに自動的に更新できます。

クエリごとに追加されるノイズ
この入力パラメータは、投稿を目立たなくしたいユーザーの数で測定され、プライバシー予算がどの程度枯渇するかを決定します。

一般に、プライバシーに関するニーズと、許可するクエリの数、およびそれらのクエリの正確性とのバランスを取る必要があります。AWS Clean Rooms では、コラボレーションパートナーに提供しているユーティリティを理解しやすくなるため、このステップを簡単に完了できます。また、インタラクティブな例を使用して、選択した設定がさまざまなタイプの SQL クエリの結果にどのように影響するかを理解することもできます。

データの差分プライバシー保護を正常に有効にできたので、AWS Clean Rooms の差分プライバシーの動作を見てみましょう。このデモでは、私が AWS Clean Rooms コラボレーションのパートナーであると仮定します。

ここでは、重複している顧客の数をカウントするクエリを実行しています。その結果、tv.customer_id の値は 3,227,643 個あることがわかります。

さて、coffee_customers テーブルから個人に関するレコードを削除した後に同じクエリを再度実行すると、3,227,604 tv.customer_id という異なる結果が表示されます。このクエリ結果のばらつきにより、個人を特定してクエリ結果の違いを確認することができません。

また、実行できる残りのクエリも含めて、プライバシーの差異の影響もわかります。

プレビュー可能
このプレビューに参加して、AWS Clean Rooms の差別化プライバシーでユーザーのプライバシー保護を始めましょう。このプレビュー期間中は、AWS Clean Rooms が利用できる場所ならどこでも AWS Clean Rooms の差分プライバシーを使用できます。開始方法の詳細については、AWS Clean Rooms の差別化プライバシーページをご覧ください。

よいコラボレーションを!
– Donnie

原文はこちらです。