AWS Clean Rooms FAQ

일반

모두 열기

AWS Clean Rooms는 고객과 파트너가 서로에게 기본 데이터를 공개하지 않고 더 간편하게 공동 데이터 세트를 분석하고 협업하여 새로운 인사이트를 얻을 수 있는 신규 서비스입니다. 파트너와 협력하여 몇 단계만에 고유 클린 룸을 생성하고 공동 데이터 세트 분석을 시작할 수 있습니다. AWS Clean Rooms를 사용하면 기본 데이터세트를 이동, 공개 또는 복사할 필요 없이 AWS와 Snowflake를 사용하는 모든 회사와 쉽게 협업할 수 있습니다.

AWS Clean Rooms 협업은 협업 구성원이 파트너와 원시 데이터를 공유하지 않고도, SQL, Spark SQL, PySpark를 실행하고 ML 모델링을 수행할 수 있는 안전한 논리적 경계입니다. 협업에 초대된 기업만 참여할 수 있으며, 여러 참가자가 Clean Rooms 협업에 데이터를 제공할 수 있습니다.

AWS Management Console에서 수행할 분석 유형, 협업할 파트너, 협업에 기여할 데이터 세트를 선택할 수 있습니다. AWS Clean Rooms를 사용하면 SQL, PySpark 분석, 기계 학습이라는 세 가지 유형의 분석을 수행할 수 있습니다.

AWS Clean Rooms는 클린 룸 협업에서 쿼리를 실행할 수 있는 Spark SQL 기반 분석 엔진을 제공합니다. AWS Clean Rooms Spark SQL은 구성 가능한 컴퓨팅 크기를 제공하여 성능, 규모 및 비용 요구 사항에 따라 SQL 쿼리를 실행하도록 리소스를 유연하게 사용자 지정 및 할당할 수 있는 향상된 기능을 제공합니다. SQL 쿼리를 실행하면 AWS Clean Rooms가 데이터의 상주 위치에서 데이터를 읽고 기본 제공되는 유연한 분석 규칙을 적용하므로 데이터를 손쉽게 제어할 수 있습니다. AWS Clean Rooms는 개인 정보 보호를 개선하는 광범위한 SQL 제어 기능 세트를 제공합니다. 예를 들어 쿼리 제어, 쿼리 출력 제한 및 쿼리 로깅 등과 같은 제어 기능을 사용하여 각 클린 룸 참가자가 실행하는 쿼리에 대한 제한을 사용자 지정할 수 있습니다. AWS Clean Rooms Differential Privacy를 사용하면 몇 번의 클릭으로 수학적으로 뒷받침되는 직관적인 제어를 통해 사용자의 개인 정보를 보호할 수 있습니다. 쿼리를 실행할 때 원하는 차등 프라이버시 파라미터를 구성하여 AWS Clean Rooms Differential Privacy를 사용할 수도 있습니다. 그리고 Cryptographic Computing for Clean Rooms(C3R)는 SQL 분석 중 민감한 데이터를 암호화하는 데 유용합니다.

AWS Clean Rooms의 PySpark를 사용하면 기업과 그 파트너가 Apache Spark용 Python API, PySpark를 사용하여 대규모 데이터세트에서 정교한 분석을 실행할 수 있습니다. AWS Clean Rooms에서 PySpark를 사용하면 파트너와 함께 기본 데이터나 독점 분석 방법을 공유할 필요 없이 PySpark 코드 및 라이브러리를 AWS Clean Rooms 협업에 가져와 고급 분석을 실행할 수 있습니다.

AWS Clean Rooms ML을 사용하면 사용자와 파트너가 개인 정보 보호 강화 기계 학습(ML)을 적용하여 원시 데이터를 서로 공유하지 않고도 예측 인사이트를 확보할 수 있습니다. AWS Clean Rooms ML은 맞춤형 및 유사 기계 학습(ML) 모델링을 지원합니다. 맞춤형 모델링을 사용하면 협업자 간에 기본 데이터나 지적 재산을 공유하지 않고도 훈련을 위한 맞춤형 모델을 가져오고 공동 데이터세트에 대한 추론을 실행할 수 있습니다. 유사 모델링을 사용하면 AWS에서 제작한 모델을 사용하여 파트너가 협업에 가져오는 소수의 프로필 샘플을 기반으로 유사한 프로필의 확장된 세트를 생성할 수 있습니다. AWS 제작 모델을 사용하는 AWS Clean Rooms ML 유사 모델링은 전자상거래, 스트리밍 비디오 등 다양한 데이터세트로 구축 및 테스트되었으며, 고객이 유사 모델링의 정확도를 대표적인 업계 기준에 비해 최대 36% 향상할 수 있도록 지원합니다. 신규 고객 발굴과 같은 실제 애플리케이션에서 이러한 정확도 향상은 수백만 USD의 비용 절감으로 이어질 수 있습니다.

AWS Management Console 또는 API 작업을 사용하여 클린 룸 협업을 생성하고, 협업할 회사를 초대하며, 협업 작업에서 각 참가자의 기능을 선택합니다. 그런 다음 참가자는 정형 데이터를 쿼리하는 방법에 대한 규칙을 설정하고 데이터에 대해 ML 모델을 훈련시킬 수 있습니다. 데이터 세트는 참가자 계정에서 복사되지 않으며 필요할 때만 액세스할 수 있습니다. AWS Clean Rooms를 사용하면 SQL, Spark SQL 및 PySpark 분석과 AWS Clean Rooms ML을 사용한 기계 학습 모델링 등 수행할 분석 유형을 선택할 수 있습니다. SQL 분석을 사용하는 경우에는 노코드 분석 빌더, AWS Clean Rooms Differential Privacy, 암호화 컴퓨팅과 같은 기능을 사용할 수 있습니다. Spark SQL 분석을 사용하는 경우에는 구성 가능한 컴퓨팅 크기를 선택하여 성능, 규모 및 비용 요구 사항에 따라 SQL 쿼리를 실행하도록 리소스를 유연하게 사용자 지정 및 할당할 수 있는 향상된 기능을 제공할 수 있습니다. AWS Clean Rooms에서 PySpark를 사용하면 파트너와 함께 기본 데이터나 독점 분석 방법을 공유할 필요 없이 PySpark 코드 및 라이브러리를 AWS Clean Rooms 협업에 가져와 고급 분석을 실행할 수 있습니다. AWS Clean Rooms ML에서는 사용자 지정 모델링 또는 AWS에서 작성한 유사 모델링을 사용하여 예측 인사이트를 생성할 수 있습니다. 협업 참여자가 데이터 또는 모델을 협업에 연결하고 분석을 실행하면 협업 결과는 지정된 Amazon Simple Storage Service(S3) 버킷에 저장됩니다.

AWS Clean Rooms는 기본 데이터세트를 이동, 공개 또는 복사할 필요 없이 Amazon S3, Amazon Athena 또는 Snowflake의 데이터를 사용할 수 있습니다. AWS Clean Rooms는 쿼리가 실행될 때 소스에서 데이터를 읽으므로 별도의 환경에 데이터세트를 복제하는 데 따르는 복잡성과 비용을 피할 수 있습니다. 여기에서 여러 클라우드 및 데이터 소스에 대한 AWS Clean Rooms 지원에 대해 자세히 알아보세요.

AWS Clean Rooms는 협업당 최대 5명의 참가자를 지원합니다.

고객은 AWS Clean Rooms 협업에 참여할 수 있는 구성원을 제어하고 협업을 생성하거나 협업 초대에 참여할 수 있습니다. 참여는 협업의 각 당사자에게 투명하며 협업이 생성된 후에는 새 계정을 추가할 수 없습니다. 그러나 필요한 경우 다른 고객 또는 파트너와 새로운 협업을 설정할 수 있습니다. 귀하는 자신의 콘텐츠에 대한 액세스를 설정 및 관리하고 자신이 제어하는 사용자, 그룹, 권한 및 보안 인증을 통해 AWS 서비스 및 리소스에 대한 액세스도 관리합니다.

고객은 기본 데이터를 공유하거나 공개하지 않고도 파트너와 함께 협업 데이터 세트에서 SQL, Spark SQL, PySpark 또는 AWS Clean Rooms ML 모델링을 사용하여 인사이트를 얻을 수 있습니다. AWS Clean Rooms 협업을 설정할 때 특정 사용 사례에 적합하도록 각 협업 구성원별로 다른 기능을 지정할 수 있습니다. AWS Clean Rooms 협업에 참여할 때 공동 작업자는 분석을 실행할 대상, 결과를 받을 대상, 컴퓨팅 요금을 부담할 당사자에 대해 합의합니다. 협업에 초대한 사람만 설정한 분석 규칙에 따라 인사이트를 얻을 수 있습니다.

Spark SQL 분석을 사용하면 SQL 쿼리 실행은 한 명의 협업자만 할 수 있지만, 여러 협업자가 데이터를 거기에 제공하고 결과를 받을 수 있습니다. 예를 들어, 쿼리 출력을 다른 구성원에게 보내려면 한 구성원을 쿼리를 작성할 수 있는 쿼리 실행자로 지정하고 다른 구성원을 결과를 수신할 수 있는 쿼리 결과 수신자로 지정하면 됩니다. 이를 통해 여러 구성원이 분석 결과를 수신하도록 하고, 협업 생성자가 쿼리할 수 있는 구성원이 쿼리 결과에 접근하지 못하도록 할 수 있습니다. SQL 분석을 사용하면 여러 협업자가 데이터를 제공할 수 있지만 단 한 명의 협업자만 SQL 쿼리를 실행하고 결과를 얻을 수 있습니다. 예를 들어, 쿼리 출력을 다른 구성원에게 보내려면 한 구성원을 쿼리를 작성할 수 있는 쿼리 실행자로 지정하고 다른 구성원을 결과를 수신할 수 있는 쿼리 결과 수신자로 지정하면 됩니다. 이를 통해 협업 생성자가 쿼리할 수 있는 구성원이 쿼리 결과에 접근하지 못하도록 할 수 있습니다.

PySpark 분석을 사용하면 여러 협업자가 데이터를 제공할 수 있지만 단 한 명의 협업자만 작업을 실행하고 작업 실행자만 결과를 수신할 수 있습니다.

AWS Clean Rooms ML을 사용하면 협업자가 파트너의 유사 세그먼트를 찾을 수 있는 샘플 레코드 세트를 제공하고, 상대방은 샘플 레코드와의 유사성을 기반으로 유사 세그먼트를 생성할 수 있는 더 큰 모집단 레코드 세트를 보유할 수 있습니다. AWS Clean Rooms ML은 유사 세그먼트의 시작점이 되는 더 큰 모집단 레코드 세트를 제공하는 당사가 지정한 대상으로 출력 유사 세그먼트를 보냅니다.

AWS Entity Resolution은 AWS Clean Rooms에 기본적으로 통합되어 있습니다. 개인 정보 보호가 강화된 AWS Clean Rooms 협업을 통해 규칙 기반 또는 데이터 서비스 공급자 기반 매칭을 사용하여 선택한 공통 키(가명 ID 등)로 사용자 데이터를 준비, 매칭하고 파트너의 데이터와 연결할 수 있습니다. 협업에서 AWS Entity Resolution 매칭 기능을 적용하려면 Amazon S3에 저장된 데이터를 사용해야 합니다.

AWS Clean Rooms는 미국 동부(오하이오), 미국 동부(버지니아 북부), 미국 서부(오레곤), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던) 및 유럽(스톡홀름)에서 사용할 수 있습니다.

AWS Clean Rooms를 사용하면 유연한 분석 도구와 프라이버시 강화 ML을 통해 비즈니스 니즈를 충족할 수 있습니다. SQL, Spark SQL 또는 PySpark 분석을 사용하면 클린 룸 처리 단위(CRPU) 시간에 따라 협업에서 실행되는 SQL 쿼리 또는 작업의 컴퓨팅 용량에 대해 초당 기준(최소 60초 요금 부과)으로 지불할 협업자를 유연하게 선택할 수 있습니다. AWS Clean Rooms ML을 사용하는 경우 요청한 모델 훈련 및 생성한 유사 세그먼트에 대해서만 프로필 1,000개당 요금을 지불하면 됩니다. 자세한 내용은 AWS Clean Rooms 요금을 참조하세요.

AWS Clean Rooms에서 AWS Entity Resolution을 사용하면 LiveRamp 등의 공급업체 데이터 세트를 활용하여 규칙 기반 또는 데이터 서비스 공급자 기반 매칭을 사용할 수 있습니다.

규칙 기반 매칭을 사용하는 경우, 협업을 생성하거나 협업에 참여하기 전에 AWS Entity Resolution을 사용하여 데이터를 이미 준비한 경우가 아니라면 최소 한 명 이상의 협력자가 파트너의 데이터 세트와 매칭하기 전에 데이터를 준비해야 합니다. 구성원은 사용한 경우에만 데이터 준비 비용을 지불합니다. 협업에 참여하는 모든 구성원은 데이터 매칭 비용을 지불할 수 있습니다. 협업당 일회용 데이터 매칭 요금을 지불해야 하며 이 요금은 데이터 매칭 비용을 지불하는 모든 협력자에게 할당됩니다.

데이터 서비스 공급자 기반 매칭을 사용하는 경우, 공급업체 ID를 사용하여 데이터를 준비하기 위해 모든 협업 구성원이 제공업체를 구독해야 합니다. 모든 협업 구성원은 파트너의 데이터 세트와 매칭하기 전에 먼저 공급업체 ID를 사용하여 데이터를 준비해야 합니다. 단, 협업을 생성하거나 협업에 참여하기 전에 AWS Entity Resolution을 사용하여 데이터를 이미 준비한 경우는 예외입니다. 협업에 참여하는 모든 구성원은 제공업체의 ID를 사용하여 데이터 매칭 비용을 지불할 수 있습니다. 또한 데이터 매칭 비용을 지불하는 멤버는 제공업체를 구독해야 합니다. AWS Data Exchange(ADX)에 등록된 공개 구독을 사용하거나, 원하는 데이터 서비스 제공업체를 통해 직접 비공개 구독을 구매한 후 Bring Your Own Subscription(BYOS)을 사용하여 ADX로 가져올 수 있습니다.

자세한 내용은 AWS Clean Rooms의 AWS Entity Resolution 요금을 참조하세요.

보안 및 데이터 보호

모두 열기

데이터 보호는 AWS의 보안 기반에서 시작되며, AWS Clean Rooms는 AWS Identity and Access Management(AWS IAM), AWS Key Management Service(AWS KMS), AWS CloudTrail 등 AWS 보안 서비스를 기반으로 구축됩니다. 이를 통해 기존 데이터 보호 전략을 데이터 협업 워크로드로 확장할 수 있습니다. AWS Clean Rooms를 사용하면 소비자 인사이트, 마케팅 측정, 예측 또는 위험 평가를 위한 분석을 수행하기 위해 더 이상 데이터 사본을 AWS 환경 외부에 저장 또는 유지하고 다른 당사자에게 전송할 필요가 없습니다.

AWS Clean Rooms 협업을 설정하고 SQL 분석을 사용할 때 특정 사용 사례에 적합하도록 각 협업 구성원별로 다른 기능을 지정할 수 있습니다. 예를 들어, 쿼리의 출력을 다른 구성원에게 보내려면 한 구성원을 쿼리를 작성할 수 있는 쿼리 실행자로 지정하고 다른 구성원을 결과를 수신할 수 있는 쿼리 결과 수신자로 지정하면 됩니다. 이를 통해 협업 생성자가 쿼리할 수 있는 구성원이 쿼리 결과에 접근하지 못하도록 할 수 있습니다.

AWS Clean Rooms는 SQL 쿼리 제어 기능도 제공하여 분석 규칙 구성을 통해 데이터 테이블에서 실행할 수 있는 쿼리의 종류나 특정 쿼리를 제한할 수 있습니다. AWS Clean Rooms는 세 가지 유형의 SQL 분석 규칙, 즉 집계, 목록 및 사용자 지정을 지원합니다. 집계 분석 규칙을 사용하면 집계 통계를 생성하는 쿼리(예: 캠페인 측정 또는 기여)만 허용하도록 테이블을 구성할 수 있습니다. 목록 분석 규칙을 사용하면 쿼리가 자신의 데이터 세트와 쿼리를 실행할 수 있는 구성원의 데이터 세트의 교집합만 분석할 수 있도록 제어를 구성할 수 있습니다. 사용자 지정 분석 규칙을 사용하면 데이터 세트에서 특정 계정이나 쿼리를 실행할 수 있도록 쿼리 수준 제어를 구성할 수 있습니다. 사용자 지정 분석 규칙을 사용할 때 Differential Privacy를 사용하도록 선택할 수 있습니다. AWS Clean Rooms Differential Privacy를 사용하면 몇 번의 클릭으로 수학적으로 뒷받침되는 직관적인 제어를 통해 사용자의 개인 정보를 보호할 수 있습니다. AWS Clean Rooms은 완전관리형이므로 이전에 차등 개인정보보호를 적용해 본 적이 없더라도 사용자 재식별을 방지할 수 있습니다. 또 다른 제어 기능은 집계 임계값입니다. 집계 임계값은 쿼리가 잠재적으로 재식별이 가능한 작은 그룹으로 드릴다운하는 것을 방지합니다.

AWS Clean Rooms ML 사용 시 데이터는 모델의 훈련에만 사용되며 AWS 모델 훈련에는 사용되지 않습니다. AWS Clean Rooms ML은 한 회사의 훈련 또는 유사 세그먼트 데이터를 다른 회사와 공유하지 않으므로 언제든지 모델 및 훈련 데이터를 삭제할 수 있습니다.

아니요. 데이터세트는 공동 작업자의 AWS 또는 Snowflake 데이터 레이크에 저장되며 이동하지 않습니다. AWS Clean Rooms는 협력자 계정의 데이터를 임시로 읽어 쿼리를 실행하거나 기록을 매칭하거나 ML 모델에 대한 훈련을 수행하거나 시드 세그먼트를 확장합니다. 분석 결과는 분석을 위해 설계된 S3 위치로 전송됩니다. 협업 프로세스 중에는 데이터 레이크에서 읽은 데이터가 AWS에 영구적으로 저장되지 않으며, AWS Clean Rooms 환경으로 임시로 읽은 모든 데이터는 쿼리가 완료되면 삭제됩니다.

AWS Clean Rooms의 AWS Entity Resolution은 협업 시 각 당사자의 ID 사이에서 매핑되는 데이터 세트를 생성합니다. 매핑 데이터 세트는 AWS Clean Rooms에서 관리됩니다. 협업하는 어떤 멤버도 매핑 테이블을 보거나 다운로드할 수 없습니다. 협업하는 모든 구성원이 이 개인 정보 보호 규정을 완화하는 데 동의하면 매핑 테이블에서 특정 사용 사례를 쿼리할 수 있습니다. 각 당사자는 언제든지 테이블을 삭제할 수 있습니다.

AWS Clean Rooms ML에서 생성한 모델은 서비스에 저장되고, 고객 관리형 AWS KMS 키로 암호화할 수 있으며, 고객이 언제든지 삭제할 수 있습니다.

AWS Clean Rooms 암호화 및 분석 규칙을 사용하면 공유하려는 정보의 유형을 세부적으로 제어할 수 있습니다. 데이터 협업자는 재식별 위험을 포함하여 각 협업의 위험을 평가하고 데이터 프라이버시 법규를 준수하기 위해 추가 실사를 실시할 책임이 있습니다. 공유하는 데이터가 민감하거나 규제 대상인 경우 적절한 법적 계약 및 감사 메커니즘을 사용하여 추가로 개인 정보 위험을 축소하는 것이 좋습니다.

예. AWS 서비스 약관에서는 AWS Clean Rooms 협업에 대한 특정 사용 사례를 제한합니다.

예, AWS HIPAA 규정 준수 프로그램에는 AWS Clean Rooms가 HIPAA 적격 서비스로 포함되어 있습니다. AWS와 BAA(Business Associate Agreement)가 체결되어 있다면 이제 Amazon Clean Rooms를 사용하여 HIPAA 규정을 준수하는 협업을 생성할 수 있습니다. BAA가 없거나 HIPAA 규정 준수 애플리케이션에 AWS를 사용하는 방법에 대해 질문이 있는 경우 Amazon에 문의하여 자세히 알아보시기 바랍니다.

자세한 내용은 다음 리소스를 참조하십시오.

AWS HIPAA 규정 준수 페이지

의료 서비스에서의 AWS 클라우드 컴퓨팅 페이지

AWS Clean Rooms ML

모두 열기

AWS Clean Rooms ML을 사용하면 원시 데이터를 서로 공유할 필요 없이 사용자와 파트너가 개인정보 보호 강화 기계 학습(ML)을 적용하여 예측 인사이트를 생성할 수 있도록 지원합니다. AWS Clean Rooms ML은 맞춤형 및 유사 기계 학습(ML) 모델링을 지원합니다. 맞춤형 모델링을 사용하면 협업자 간에 기본 데이터나 지적 재산을 공유하지 않고도 훈련을 위한 맞춤형 모델을 가져오고 공동 데이터세트에 대한 추론을 실행할 수 있습니다. 또한 맞춤형 ML 모델 훈련을 위한 가상 데이터세트를 생성할 수 있습니다. 유사 모델링을 사용하면 AWS에서 제작한 모델을 사용하여 파트너가 협업에 가져오는 소수의 프로필 샘플을 기반으로 유사한 프로필의 확장된 세트를 생성할 수 있습니다.

AWS Clean Rooms ML은 다양한 사용 사례를 가진 고객을 지원합니다. 예를 들어 광고주는 전용 모델과 데이터를 Clean Rooms 협업에 가져와서 퍼블리셔를 초대하여 캠페인 효과를 높이는 데 도움이 되는 사용자 지정 ML 모델을 훈련 및 배포할 수 있습니다. 금융 기관은 과거 거래 기록을 사용하여 사용자 지정 ML 모델을 훈련하고 Clean Rooms 협업에 파트너를 초대하여 잠재적 사기 거래를 탐지할 수 있습니다. 연구 기관 및 병원 네트워크는 기존 임상 시험 참가자와 유사한 지원자를 찾아 임상 시험 기간을 단축하는 데 도움이 될 수 있습니다. 브랜드와 퍼블리셔는 어느 한 회사가 기본 데이터를 다른 회사와 공유하지 않고도 시장 내 고객의 유사 세그먼트를 모델링하고 관련성이 높은 광고 경험을 제공할 수 있습니다.

AWS Clean Rooms ML 사용자 지정 모델링을 사용하면 민감한 데이터나 독점 ML 모델을 공유할 필요 없이 자체 기계 학습(ML) 모델, 알고리즘, 데이터를 파트너와의 협업에 가져와 ML 모델을 훈련하고 공동 데이터세트에 대한 추론을 실행할 수 있습니다. 또한 맞춤형 ML 모델 훈련을 위한 가상 데이터세트를 생성할 수 있습니다.

AWS Clean Rooms ML 사용자 지정 모델링은 ML 훈련 및 ML 추론 워크플로를 지원합니다. 두 워크플로에 대해 먼저 훈련 또는 추론 단계를 위한 데이터세트를 생성하는 데 사용되는 AWS Clean Rooms Spark SQL 쿼리를 정의합니다. 중간 데이터세트는 클린룸 협업 내에 보관되며 승인된 AWS Clean Rooms ML 작업에만 사용할 수 있습니다. 두 번째 단계는 ML 모델 훈련 또는 추론입니다. ML 모델 및 코드는 컨테이너 이미지에 패키징됩니다. 훈련된 모델은 협업에 유지하고 추론 워크플로의 일부로 사용하거나 후속 훈련 작업에서 업데이트할 수 있습니다. AWS Clean Rooms ML에서는 사용자의 데이터가 사용자 지정 모델을 훈련하는 데만 사용되며, 협업자 간에 데이터를 공유하거나 AWS 모델을 훈련하는 데에는 사용하지 않습니다. 언제든지 Clean Rooms ML에서 데이터를 제거하거나 사용자 지정 모델을 삭제할 수 있으며, 개인정보 보호 강화 제어를 적용하여 협업에 가져오는 민감한 데이터를 보호할 수 있습니다. AWS Clean Room ML 사용자 지정 모델링을 적용하려면 Spark SQL을 분석 엔진으로 사용해야 합니다.

AWS Clean Rooms ML 유사 모델링을 사용하면 AWS에서 제작한 모델을 사용하여 파트너가 협업에 가져오는 소수의 프로필 샘플을 기반으로 유사한 프로필의 확장된 세트를 생성할 수 있으며, 사용자와 파트너의 기본 데이터를 보호할 수 있습니다. 파트너를 클린룸에 초대하고 각 협업에 대해 몇 단계만 거치면 유사 데이터 세트를 생성하도록 훈련된 AWS 제작 ML 모델을 적용할 수 있으므로 자체 모델을 구축, 훈련, 조정, 배포하는 데 소요되는 수개월의 개발 작업을 줄일 수 있습니다. AWS Clean Rooms ML 유사 모델링은 전자상거래, 스트리밍 비디오 등 다양한 데이터세트로 구축 및 테스트되었으며, 대표적인 업계 기준에 비해 고객이 유사 모델링의 정확도를 최대 36% 향상할 수 있도록 지원할 수 있습니다. 신규 고객 발굴과 같은 실제 애플리케이션에서 이러한 정확도 향상은 수백만 USD의 비용 절감으로 이어질 수 있습니다.

AWS Clean Rooms ML 유사 모델링은 한 협업자가 작은 레코드 샘플을 가져와서 다른 협업자의 데이터세트에서 훨씬 더 큰 레코드 세트 또는 유사 세그먼트를 찾습니다. 결과 유사 세그먼트에 원하는 크기를 지정하면 AWS Clean Rooms ML이 샘플 목록의 고유 프로필을 파트너 데이터 세트의 프로필과 비공개로 매칭한 다음 협력자의 데이터 세트에 있는 각 프로필이 내 샘플의 프로필과 얼마나 유사한지 예측하는 ML 모델을 훈련시킵니다. AWS Clean Rooms ML은 샘플 목록과 유사한 프로필을 자동으로 그룹화하고 이를 통해 생성된 유사 세그먼트를 출력합니다. AWS Clean Rooms ML을 사용하면 ML 모델을 구축, 훈련 및 배포하기 위해 파트너와 데이터를 공유할 필요가 없습니다. AWS Clean Rooms ML 사용 시 데이터는 모델의 훈련에만 사용되며 AWS 모델 훈련에는 사용되지 않습니다. 사용자와 파트너가 모델의 예측 결과를 조정하는 데 도움이 되는 직관적인 제어를 사용할 수 있습니다. AWS Clean Rooms ML 유사 모델링을 적용하려면 훈련 데이터세트에서 Amazon S3에 저장된 데이터를 사용해야 합니다. 시드 데이터는 Amazon S3에 저장하거나 협업에서 SQL 쿼리를 사용하여 생성할 수 있습니다.

AWS Clean Rooms ML의 합성 데이터세트

모두 열기

합성 데이터는 생성형 AI 등의 기술에 사용되는 것과 같은 실제 관측된 데이터가 아니라, 알고리즘에 의해 생성된 데이터입니다. 알고리즘으로 생성된 데이터 포인트의 모음인 합성 데이터세트는 실제 데이터의 통계적 속성과 패턴을 모방하지만 일부 또는 전체가 허구일 수 있습니다. 기업은 합성 데이터세트를 사용하여 민감한 정보를 노출할 위험 없이 AI 모델을 훈련하고, 분석을 수행하고, 애플리케이션을 개발할 수 있습니다.

AWS Clean Rooms ML 맞춤형 모델링을 사용하면 사용자와 파트너가 원본 데이터에서 민감한 정보를 노출하지 않고도, 공동 데이터에서 통계적으로 대표성이 있는 가상 데이터세트를 생성하여 회귀 및 분류 ML 모델을 훈련할 수 있습니다. 이 기능은 원본 데이터에서 데이터가 수집된 사람이나 주체와 같은 피험자를 식별하지 못하므로, 모델이 훈련 데이터에 있는 개인에 대한 정보를 기억하게 될 리스크를 줄일 수 있습니다.

AWS Clean Rooms ML 프라이버시 강화 합성 데이터세트 생성은 훈련 회귀 및 분류 모델을 위한 표 형식 데이터세트를 생성하도록 최적화되었습니다. 이 데이터세트는 대규모 언어 모델(LLM) 또는 기타 기반 모델을 훈련하기 위한 것이 아닙니다.

합성 데이터세트를 만들려면 먼저 원본 데이터세트에 예측값 열을 지정하여 사용자 지정 ML 모델을 훈련합니다. AWS Clean Rooms ML이 특화된 프라이버시 강화 모델에 이 데이터세트를 훈련시켜 지정된 열에서 예측을 생성합니다. 합성 레코드는 최종 열을 추론하도록 고객의 데이터로 학습된 특수 모델을 사용하여 예측 대상이 아닌 각 열의 값을 샘플링함으로써 생성됩니다. AWS Clean Rooms ML에서 합성 데이터세트를 생성하면 보정된 양의 노이즈를 예측 값에 주입하여 예측되지 않은 값 열 간의 상관관계를 제거합니다.

아니요. AWS Clean Rooms ML 합성 데이터세트 생성에서는 데이터세트의 개별 값을 변경하거나 제거하지 않습니다. 합성 행은 입력 데이터세트의 값을 샘플링하여 생성됩니다. 입력 데이터세트의 모든 값은 합성 데이터세트에 포함될 수 있습니다.

참고: 합성 데이터세트 생성에서는 원본 데이터세트의 개인에 대한 개별 속성을 유추하지 못하도록 보호합니다. 원본 데이터세트의 리터럴 값이 합성 데이터세트에 나타나지 않도록 개인 식별 정보(PII)를 제외하는 것이 좋습니다. 이메일, 전화번호, 주민등록번호, 주소 등의 직접적인 식별자는 원본 데이터세트에 포함되어서는 안 됩니다. ML 입력 채널을 생성하는 쿼리에서 조인 키로는 사용할 수 있지만, 합성 데이터세트 생성에 사용되는 분석 템플릿에 포함해서는 안 됩니다. 자세한 내용은 설명서를 참조하세요.

먼저 파트너와의 AWS Clean Rooms 협업을 만들고 모델 알고리즘과 데이터세트를 정의하는 것으로 시작할 수 있습니다. 다음으로, 사용자 재식별을 방지하고 일반적인 보안 위협을 방어하기 위한 노이즈 수준을 비롯하여, 합성할 데이터와 필수 프라이버시 제어를 모두 지정하는 SQL 쿼리를 생성합니다. 모든 데이터 소유자가 이 설정을 승인하면 합성 데이터 생성 프로세스가 시작됩니다. 모델 소유자는 합성 데이터를 사용하기 전에 원본 데이터와의 통계적 유사성과 프라이버시 보호의 강도를 모두 보여주는 포괄적인 지표를 검토할 수 있습니다. 마지막으로, 이 합성 데이터를 사용하여 사용자 지정 모델을 훈련하고 모델 가중치를 내보내거나 훈련된 모델에서 직접 추론 작업을 실행할 수 있습니다. 지금 바로 설명서를 참조하여 시작해 보세요.

PySpark

모두 열기

Spark 분석 엔진을 사용하여 AWS Clean Rooms 협업에서 PySpark 스크립트를 실행할 수 있습니다. PySpark는 PySpark 워크로드를 실행할 때 가격 대비 성능을 보다 효과적으로 관리할 수 있도록 구성 가능한 컴퓨팅 크기를 제공합니다.

AWS Clean Rooms의 PySpark 작업에는 vCPU 4개, 30GB 메모리 및 100GB 스토리지를 제공하는 기본 인스턴스 유형 CR.1X가 사용됩니다. vCPU 16개, 120GB 메모리 및 400GB 스토리지를 제공하는 더 큰 CR.4X 인스턴스 유형을 선택하여 PySpark 워크로드를 실행하는 데 더 많은 리소스를 할당할 수 있습니다. 인스턴스가 클수록 대량의 데이터를 처리하고 복잡한 분석을 수행하는 PySpark 워크로드에 도움이 되며, 이를 통해 워크로드를 더 많은 리소스에 분산할 수 있습니다. 여기에서 각 구성의 관련 vCPU, 메모리 및 스토리지에 대해 자세히 알아보세요.

Python 스크립트를 가져올 수 있으며, 원하는 경우 Python에서 자체 사용자 지정 또는 오픈 소스 라이브러리를 제공할 수도 있습니다.

AWS Clean Rooms에서 PySpark를 사용하는 경우 별도의 요금이 적용됩니다. PySpark 요금에 대해 자세히 알아보려면 AWS Clean Rooms 요금을 참조하세요.

SQL 분석

모두 열기

Spark 분석 엔진을 사용하여 AWS Clean Rooms 협업에서 Spark SQL 언어로 쿼리를 실행할 수 있습니다. AWS Clean Rooms SQL은 SQL 워크로드를 실행할 때 가격 대비 성능을 보다 효과적으로 관리할 수 있도록 구성 가능한 컴퓨팅 크기를 제공합니다.

AWS Clean Rooms SQL은 vCPU 4개, 30GB 메모리 및 100GB 스토리지를 제공하는 기본 인스턴스 유형 CR.1X를 사용합니다. vCPU 16개, 120GB 메모리 및 400GB 스토리지를 제공하는 더 큰 CR.4X 인스턴스 유형을 선택하여 Spark SQL 워크로드를 실행하는 데 더 많은 리소스를 할당할 수 있습니다. 인스턴스가 클수록 대량의 데이터를 처리하고 복잡한 분석을 수행하는 SQL 워크로드에 도움이 되며, 이를 통해 워크로드를 더 많은 리소스에 분산할 수 있습니다. 여기에서 각 구성의 관련 vCPU, 메모리 및 스토리지에 대해 자세히 알아보세요.

집계 분석 규칙에서는 쿼리에서 각 열을 사용하는 방법을 정의하는 데 도움이 되는 열 수준 제어를 구성합니다. 예를 들어, 집계 통계를 계산하기 위한 용도로 사용할 수 있는 열(예: SUM(price))과 다른 협업 구성원과 테이블의 조인을 수행하기 위한 용도로 사용할 수 있는 열을 지정할 수 있습니다. 집계 분석 규칙에서 각 출력 행이 충족해야 하는 최소 집계 임계값을 정의할 수도 있습니다. 최소 임곗값을 충족하지 않는 행은 AWS Clean Rooms가 자동으로 필터링합니다.

예. Amazon CloudWatch Logs에 쿼리 로그를 게시하도록 AWS Clean Rooms를 구성할 수 있습니다. 사용자 지정 분석 규칙을 사용하면 협업에서 실행되기 전에 쿼리(분석 템플릿에 저장됨)를 검토할 수도 있습니다.

AWS Clean Rooms Differential Privacy

모두 열기

차등 개인정보보호는 데이터 프라이버시 보호를 지원하는 수학적으로 검증된 프레임워크입니다. 차등 개인정보보호의 주요 이점은 분석 중인 데이터 세트에서 특정 개인의 존재 여부를 가리기 위해 통제된 양의 무작위성(노이즈)을 추가하여 개인 수준에서 데이터를 보호하는 데 도움이 된다는 것입니다.

AWS Clean Rooms Differential Privacy를 사용하면 몇 단계로 수학적으로 뒷받침되는 직관적인 제어를 통해 사용자의 개인 정보를 보호할 수 있습니다. AWS Clean Rooms은 완전관리형이므로 이전에 차등 개인정보보호를 적용해 본 적이 없더라도 사용자 재식별을 방지할 수 있습니다. AWS Clean Rooms Differential Privacy는 협업에서 집계 인사이트를 생성하는 데 있어 개인 데이터의 기여도를 난독화하여, 다양한 SQL 쿼리를 실행해 광고 캠페인, 투자 결정, 임상 연구 등과 관련한 인사이트를 생성할 수 있도록 합니다.

데이터 제공 권한이 있는 구성원으로 AWS Clean Rooms 협업을 시작하거나 참여한 후 몇 단계만 거치면 AWS Clean Rooms Differential Privacy의 사용을 시작할 수 있습니다. AWS Glue Data Catalog의 테이블을 참조하는 구성 테이블을 생성한 다음 차등 개인정보보호를 활성화하고 구성된 테이블에 사용자 지정 분석 규칙을 추가하기만 하면 됩니다. 그런 다음 구성된 테이블을 AWS Clean Rooms 협업에 연결하고 협업에서 차등 개인정보보호 정책을 구성하여 테이블을 쿼리할 수 있도록 합니다. 기본 정책을 사용하여 설정을 빠르게 완료하거나 특정 요구 사항에 맞게 사용자 지정할 수 있습니다. 협업에서 AWS Clean Rooms Differential Privacy를 적용하려면 Amazon S3에 저장된 데이터를 사용해야 합니다.

AWS Clean Rooms Differential Privacy가 설정되면 협업 파트너는 차등 개인정보보호 개념에 대한 전문 지식이나 파트너의 추가적인 설정 없이도 테이블에서 쿼리를 실행할 수 있습니다. AWS Clean Rooms Differential Privacy를 사용하면 쿼리 실행기가 공통 테이블 표현식(CTE) 및 일반적으로 사용되는 집계 함수(예: COUNT 및 SUM)를 사용하여 복잡한 쿼리 패턴 등 유연한 사용자 지정 분석을 실행할 수 있습니다.

암호화 컴퓨팅

모두 열기

암호화 컴퓨팅은 민감한 데이터를 사용 중에 보호하고 암호화하는 방법입니다. 데이터는 저장(미사용) 시, 전송(이동) 중 및 사용 중일 때 암호화될 수 있습니다. 암호화는 일반 텍스트 데이터를 특정 ‘키’가 없으면 해독할 수 없는 인코딩된 데이터로 변환하는 것을 의미합니다. Private Set Intersection(PSI)은 데이터 세트를 보유한 둘 이상의 당사자가 계산을 수행하기 위해 암호화된 버전을 비교할 수 있는 암호화 컴퓨팅의 한 유형입니다. 암호화는 공유 협업자의 비밀 키를 사용하여 온프레미스에서 실행됩니다. C3R은 Spark SQL 분석 엔진 또는 SQL 분석 엔진 모두에 사용할 수 있습니다.

AWS Clean Rooms에는 AWS Clean Rooms 협업의 다른 참가자와 공유하는 시크릿 키를 사용하여 클라이언트 측 암호화 도구[SDK 또는 명령줄 인터페이스(CLI)]를 통해 데이터를 사전 암호화하는 옵션을 제공하는 Cryptographic Computing for Clean Rooms(C3R)가 포함되어 있습니다. 이 도구는 쿼리가 실행될 때 데이터를 암호화합니다.

AWS Clean Rooms FAQ

일반

보안 및 데이터 보호

AWS Clean Rooms ML

AWS Clean Rooms ML의 합성 데이터세트

PySpark

SQL 분석

AWS Clean Rooms Differential Privacy

암호화 컴퓨팅

Clean Rooms 시작하기

AWS Clean Rooms ML에 대해 자세히 알아보기

AWS Clean Rooms 리소스 확인

알아보기

리소스

개발자

도움말

AWS Clean Rooms FAQ

일반

AWS Clean Rooms란 무엇인가요?

AWS Clean Rooms에서 협업이란 무엇인가요?

AWS Clean Rooms에서는 어떤 유형의 분석 기법을 사용할 수 있나요?

AWS Clean Rooms를 시작하려면 어떻게 해야 하나요?

AWS Clean Rooms에서는 어떤 유형의 데이터 소스를 사용할 수 있나요?

단일 협업에 몇 명의 구성원이 참가할 수 있나요?

AWS Clean Rooms 협업에 액세스할 수 있는 구성원은 누가 결정하나요?

누가 AWS Clean Rooms 협업에서 인사이트를 얻을 수 있나요?

AWS Clean Rooms는 내 데이터와 파트너의 데이터를 매칭할 수 있는 ID 확인 기능을 제공하나요?

AWS Clean Rooms를 사용할 수 있는 AWS 리전은 어디인가요?

AWS Clean Rooms의 협업 요금은 누가 지불하나요?

AWS Clean Rooms에서 AWS Entity Resolution 매칭 기술을 사용하는 비용은 누가 부담하나요?

보안 및 데이터 보호

AWS Clean Rooms는 데이터를 어떻게 보호하나요?

협업에서 내 데이터를 사용하려면 AWS Clean Rooms에 데이터를 저장해야 하나요?

AWS Clean Rooms를 사용하여 다른 구성원과 협업할 때 관련 데이터 프라이버시 법규를 준수하려면 어떻게 해야 하나요?

AWS Clean Rooms에서 협업할 때 사용 제한이 있나요?

AWS Clean Rooms는 HIPAA 적격 서비스인가요?

AWS Clean Rooms ML

AWS Clean Rooms ML이란 무엇인가요?

사용자 지정 모델링은 어떻게 작동하나요?

유사 모델링은 어떻게 작동하나요?

AWS Clean Rooms ML의 합성 데이터세트

합성 데이터란 무엇인가요?

AWS Clean Rooms ML에서 합성 데이터 세트 생성이란 무엇인가요?

AWS Clean Rooms에서 생성된 합성 데이터세트를 사용하여 어떤 유형의 모델을 훈련할 수 있나요?

AWS Clean Rooms ML에서 사용자 지정 ML 모델을 학습하기 위한 합성 데이터세트 생성은 어떻게 작동하나요?

합성 데이터세트를 생성하면 데이터세트에 있는 개인 식별 정보가 난독화되나요?

AWS Clean Rooms ML에서 사용자 지정 ML 모델을 훈련하기 위한 합성 데이터 세트 생성을 시작하려면 어떻게 해야 하나요?

PySpark

AWS Clean Rooms에서 PySpark란 무엇인가요?

어떤 유형의 코드를 AWS Clean Rooms로 가져올 수 있나요?

PySpark의 요금은 어떻게 되나요?

SQL 분석

AWS Clean Rooms SQL이란 무엇인가요?

SQL 분석 규칙을 구성하려면 어떻게 해야 하나요?

협업 구성원이 내 데이터에서 어떤 쿼리를 실행하고 있는지 확인할 수 있나요?

AWS Clean Rooms Differential Privacy

차등 개인정보보호란 무엇인가요?

AWS Clean Rooms Differential Privacy는 기존 오픈 소스 구현과 비교하여 어떻게 더 나은가요?

AWS Clean Rooms Differential Privacy를 사용하려면 어떻게 해야 하나요?

암호화 컴퓨팅

AWS 암호화 컴퓨팅이란 무엇인가요?

Cryptographic Computing for Clean Rooms(C3R)란 무엇인가요?

Clean Rooms 시작하기

AWS Clean Rooms ML에 대해 자세히 알아보기

AWS Clean Rooms 리소스 확인

알아보기

리소스

개발자

도움말