Amazon Web Services 한국 블로그

AWS Clean Rooms – 사용자 데이터에 대한 차등 개인 정보 보호 제공 (미리 보기)

오늘부터 AWS Clean Rooms 차등 프라이버시(평가판)를 사용하여 몇 단계만 거치면 수학적으로 뒷받침되며 직관적인 제어 기능을 통해 사용자의 개인 정보를 보호할 수 있습니다. AWS Clean Rooms의 완전 관리형 기능이므로 사용자 재식별을 방지하는 데 유용한 차등 프라이버시 작업이 사전에 필요하지 않습니다.

AWS Clean Rooms 차등 프라이버시는 협업에서의 종합적인 인사이트 생성에 개별 데이터의 기여가 도드라지지 않게 하기 때문에, 광범위한 SQL 쿼리를 실행하여 광고 캠페인, 투자 결정, 임상 연구 등에 대한 인사이트를 생성할 수 있습니다.

차등 프라이버시에 대한 간략한 개요
차등 프라이버시는 새로운 기능이 아닙니다. 프라이버시에 대한 강력한 수학적 정의로 통계 및 기계 학습 기반 분석과 호환되며, 미국 인구조사국은 물론 방대한 양의 데이터를 보유한 기업에서도 사용되었습니다.

차등 프라이버시는 대규모 데이터 세트와 관련된 다양한 사용 사례를 지원합니다. 예를 들어 개인을 몇 명 추가 또는 제거해도 전체 결과에 미치는 영향은 미미합니다(예: 카운트 쿼리, 히스토그램, 벤치마킹, A/B 테스트, 기계 학습을 사용한 인구 분석).

다음 그림은 차등 프라이버시가 SQL 쿼리에 적용될 때의 작동 방식을 보여줍니다.

분석가가 쿼리를 실행할 때 차등 프라이버시는 신중하게 조정된 양의 오류(노이즈라고도 함)를 런타임의 쿼리 결과에 추가하여 개인의 기여를 숨기는 동시에, 의미 있는 인사이트가 제공될 만큼 쿼리 결과의 정확성을 유지합니다. 노이즈를 섬세하게 조정하여 데이터 세트 내 개체 존재 여부를 가려줍니다.

차등 프라이버시에는 개인정보 보호 예산이라는 또 다른 구성 요소도 있습니다. 개인정보 보호 예산은 쿼리가 실행될 때마다 소비되는 한정된 리소스이므로, 데이터 세트에서 실행 가능한 쿼리의 수를 제어하여 개인에 대한 개인 정보를 노출할 정도로 노이즈를 평균화할 수 없게 합니다. 개인정보 보호 예산이 완전히 소진되면 예산을 늘리거나 새로 고칠 때까지 더 이상 테이블에서 쿼리를 실행할 수 없습니다.

그러나 차등 프라이버시를 효과적으로 적용하기 위해서는 수학적으로 엄격한 공식 및 이론에 대한 심층적인 이해가 필요하기 때문에 구현하기 어렵습니다. 차등 프라이버시를 구성하는 일 또한 복잡한 작업입니다. 고객이 쿼리 결과의 유용성에 부정적인 영향을 주지 않으면서 사용자의 개인 정보를 보호하려면 적절한 노이즈 수준을 계산해야 하기 때문입니다.

또한 고객은 파트너가 데이터에 대해 매우 복잡하고 맞춤화된 쿼리를 비롯한 다양한 분석을 수행할 수 있기를 원합니다. 이러한 요건의 경우에는, 집계, 결합 및 변환과 같은 다양한 쿼리 구성 요소를 처리하는 동안 노이즈를 보정하는 계산의 복잡한 특성 때문에 차등 프라이버시에서 지원하기 어렵습니다.

AWS Clean Rooms 차등 프라이버시는 수학적으로 뒷받침되는 제어 기능을 사용하여 클릭 몇 번으로 사용자의 프라이버시를 보호할 수 있도록 만들었습니다.

AWS Clean Rooms에서 차등 프라이버시가 작동하는 방식
차등 프라이버시는 매우 정교한 기술이지만, AWS Clean Rooms 차등 프라이버시를 사용하면 이를 쉽게 적용하고 수학적으로 뒷받침되는 유연하고 직관적인 제어를 통해 사용자의 프라이버시를 보호할 수 있습니다. 데이터를 제공할 능력을 갖춘 회원으로서 AWS Clean Rooms 협업을 시작하거나 가입한 후 몇 단계만 거치면 사용을 시작할 수 있습니다.

AWS Glue 데이터 카탈로그의 테이블을 참조하는 구성 테이블을 생성하고, 구성된 테이블에 사용자 지정 분석 규칙을 추가하면서 차등 개인 정보 보호를 활성화하도록 선택합니다.

다음으로 구성된 테이블을 AWS Clean Rooms 협업에 연결하고, 협업에서 차등 프라이버시 정책을 구성하여 테이블을 쿼리할 수 있도록 합니다. 기본 정책을 사용하여 설정을 빠르게 완료하거나 특정 요구 사항에 맞게 사용자를 지정할 수 있습니다. 이 단계의 일부로 다음을 구성합니다.

개인정보 보호 예산
엡실론이라는 값으로 수량화하면 개인정보 보호 예산이 개인정보 보호 수준을 제어합니다. 여러 테이블에 정보가 존재할 수 있는 사용자의 개인 정보 보호를 목표로 하므로, 이 리소스는 협업 시 차등 프라이버시로 보호받는 모든 테이블에 적용되는 공통적이고 유한한 리소스입니다. 개인정보 보호 예산은 테이블에서 쿼리가 실행될 때마다 소비됩니다. 공동 작업 중 개인정보 보호 예산 값을 늘리고 매달 자동으로 새로 고칠 수 있는 유연성이 있습니다.

쿼리당 노이즈 추가
사용자가 기여도를 숨기고자 하는 사용자의 수를 기준으로 측정된 이 입력 파라미터는 개인 정보보호 예산이 고갈되는 비율을 결정합니다.

일반적으로 프라이버시 요구 사항과 허용하려는 쿼리 수 및 해당 쿼리의 정확성 사이에서 균형을 맞춰야 합니다. AWS Clean Rooms를 사용하면 협업 파트너에게 제공하는 최종 유틸리티를 이해하기 용이해지므로 이 단계를 쉽게 완료할 수 있습니다. 또한 대화형 예제를 사용하여 선택한 설정이 다양한 유형의 SQL 쿼리 결과에 어떤 영향을 미치는지 이해할 수 있습니다.

데이터에 대한 차등 프라이버시를 활성화했으니 이제 AWS Clean Rooms의 차등 프라이버시를 실제로 살펴봅시다. 이 데모에서는 블로그 작성자가 AWS Clean Rooms 협업 파트너라고 가정해 보겠습니다.

여기서는 중복 고객 수를 세는 쿼리를 실행하고 있으며, 그 결과는 tv.customer_id에 3,227,643개의 값이 있음을 보여줍니다.

이제 coffee_customer 테이블에서 개인에 대한 레코드를 제거한 다음 동일 쿼리를 재실행하면 3,227,604 tv.customer_id라는 다른 결과가 표시됩니다. 쿼리 결과의 이러한 가변성으로 인해 쿼리 결과의 차이를 관찰하여 개인을 식별할 수 없습니다.

실행할 수 있는 나머지 쿼리를 포함하여 차등 프라이버시의 영향도 확인할 수 있습니다.

평가판 이용 가능
이 평가판에 참여하여 AWS Clean Rooms 차등 프라이버시를 통해 사용자의 프라이버시를 보호해 보십시오. 이 평가판 사용 기간 동안에는 AWS Clean Rooms가 제공되는 모든 곳에서 AWS Clean Rooms 차등 프라이버시를 사용할 수 있습니다. 시작 방법에 대해 자세히 알아보려면 AWS Clean Rooms 차등 프라이버시 페이지를 참조하세요.

자 이제 효과적으로 협업해 보세요!
Donnie