Überspringen zum Hauptinhalt

AWS Clean Rooms

Häufig gestellte Fragen zu AWS Clean Rooms

Allgemeines

Alles öffnen

AWS Clean Rooms erleichtert es Ihnen und Ihren Partnern, Ihre kollektiven Datensätze zu analysieren und gemeinsam zu bearbeiten, um neue Erkenntnisse zu gewinnen, ohne die zugrunde liegenden Daten gegenseitig preiszugeben. Sie können in wenigen Minuten Ihre eigenen Clean Rooms erstellen und mit wenigen Schritten mit der Analyse von gemeinsamen Datensätzen mit Ihren Partnern beginnen. Mit AWS Clean Rooms können Sie problemlos mit jedem Unternehmen in AWS und Snowflake zusammenarbeiten, ohne dass eine Partei ihre zugrunde liegenden Datensätze verschieben, veröffentlichen oder kopieren muss.

Kollaborationen in AWS Clean Rooms sind sichere logische Grenzen, die es Kollaborationsmitgliedern ermöglichen, SQL-, Spark-SQL- und PySpark-Analysen durchzuführen und ML-Modellierungen vorzunehmen, ohne Rohdaten mit ihren Partnern zu teilen. Nur Unternehmen, die zur Kollaboration eingeladen wurden, können teilnehmen, und mehrere Teilnehmer können Daten zu einer Kollaboration in Clean Rooms beitragen.

In der AWS-Managementkonsole können Sie auswählen, welche Art von Analyse Sie durchführen, mit welchen Partnern Sie zusammenarbeiten und welche Datensätze Sie zu einer Zusammenarbeit beitragen möchten. Mit AWS Clean Rooms können Sie drei Arten von Analysen durchführen: SQL, PySpark-Analysen und Machine Learning.

AWS Clean Rooms bietet eine auf Spark SQL basierende Analyse-Engine zur Ausführung von Abfragen in einer Clean-Rooms-Kollaboration. AWS Clean Rooms Spark SQL bietet konfigurierbare Rechengrößen, um mehr Flexibilität bei der Anpassung und Zuweisung von Ressourcen für die Ausführung von SQL-Abfragen auf der Grundlage Ihrer Leistungs-, Skalierungs- und Kostenanforderungen zu bieten. Wenn Sie SQL-Abfragen ausführen, liest AWS Clean Rooms die Daten dort, wo sie sich befinden, und wendet integrierte, flexible Analyseregeln an, damit Sie die Kontrolle über Ihre Daten behalten. AWS Clean Rooms bietet eine breite Palette datenschutzverbessernder SQL-Kontrollen, einschließlich Abfragekontrollen, Abfrageausgabebeschränkungen und Abfrageprotokollierung, mit denen Sie die Beschränkungen für die von jedem Clean-Room-Teilnehmer ausgeführten Abfragen anpassen können. AWS Clean Rooms Differential Privacy hilft Ihnen, die Privatsphäre Ihrer Benutzer mit mathematisch gestützten und intuitiven Steuerelementen mit wenigen Klicks zu schützen. Sie können AWS Clean Rooms Differential Privacy verwenden, indem Sie beim Ausführen Ihrer Abfragen Ihre gewünschten differenziellen Datenschutzparameter konfigurieren. Und kryptografisches Computing für Clean Rooms (C3R) hilft Ihnen, sensible Daten während Ihrer SQL-Analysen zu verschlüsseln.

PySpark in AWS Clean Rooms ermöglicht es Unternehmen und ihren Partnern, mithilfe von PySpark, der Python-API für Apache Spark, anspruchsvolle Analysen über große Datensätze hinweg durchzuführen. Mit PySpark in AWS Clean Rooms können Sie und Ihre Partner PySpark-Code und -Bibliotheken in eine Kollaboration in AWS Clean Rooms einbringen und erweiterte Analysen durchführen, ohne die zugrunde liegenden Daten oder eigene Analysemethoden freigeben zu müssen.

AWS Clean Rooms ML hilft Ihnen und Ihren Partnern, datenschutzverbesserndes Machine Learning (ML) anzuwenden, um prädiktive Erkenntnisse zu gewinnen, ohne Rohdaten freigeben zu müssen. AWS Clean Rooms ML unterstützt benutzerdefinierte und Lookalike-Machine-Learning-Modellierung. Mit der benutzerdefinierten Modellierung können Sie ein benutzerdefiniertes Modell für das Training erstellen und Inferenzen auf kollektiven Datensätzen ausführen, ohne die zugrunde liegenden Daten oder das geistige Eigentum unter den Kollaborationsmitgliedern zu teilen. Mit der Lookalike-Modellierung können Sie ein von AWS erstelltes Modell verwenden, um einen erweiterten Satz ähnlicher Profile zu generieren, der auf einer kleinen Stichprobe von Profilen basiert, die Ihre Partner in eine Kollaboration einbringen. Die Lookalike-Modellierung in AWS Clean Rooms ML, die ein von AWS erstelltes Modell verwendet, wurde für eine Vielzahl von Datensätzen wie E-Commerce und Videostreaming erstellt und getestet und kann Kunden dabei helfen, die Genauigkeit der Lookalike-Modellierung im Vergleich zu repräsentativen Branchen-Baselines um bis zu 36 % zu verbessern. In realen Anwendungen wie bei der Suche nach neuen Kunden kann diese Verbesserung der Genauigkeit zu Einsparungen in Millionenhöhe führen.

Über die AWS-Managementkonsole oder API-Vorgänge erstellen Sie eine Clean-Room-Kollaboration, laden die Unternehmen ein, mit denen Sie zusammenarbeiten möchten, und wählen die Fähigkeiten aus, die jeder Teilnehmer innerhalb der Kollaboration hat. Die Teilnehmer können dann Regeln dafür einrichten, wie strukturierte Daten abgefragt werden können, und ML-Modelle anhand ihrer Daten trainieren. Datensätze werden nicht von den Konten der Teilnehmer kopiert und nur bei Bedarf abgerufen. Mit AWS Clean Rooms können Sie wählen, welche Art von Analyse Sie durchführen möchten: SQL-, Spark-SQL- und PySpark-Analysen sowie ML-Modellierung mit AWS Clean Rooms ML. Bei der Verwendung von SQL-Analysen können Sie Funktionen wie den No-Code Analysis Builder, AWS Clean Rooms Differential Privacy und kryptografisches Computing verwenden. Bei der Verwendung von Spark-SQL-Analysen können Sie konfigurierbare Rechengrößen auswählen, um mehr Flexibilität bei der Anpassung und Zuweisung von Ressourcen für die Ausführung von SQL-Abfragen auf der Grundlage Ihrer Leistungs-, Skalierungs- und Kostenanforderungen zu bieten. Mit PySpark in AWS Clean Rooms können Sie und Ihre Partner PySpark-Code und -Bibliotheken in eine Kollaboration in AWS Clean Rooms einbringen und erweiterte Analysen durchführen, ohne die zugrunde liegenden Daten oder eigene Analysemethoden freigeben zu müssen. Mit AWS Clean Rooms ML können Sie benutzerdefinierte oder von AWS erstellte Lookalike-Modellierung verwenden, um prädiktive Erkenntnisse zu generieren. Sobald die Teilnehmer einer Kollaboration Daten oder Modelle zugeordnet haben und Analysen ausgeführt wurden, werden die Ergebnisse in einem dafür vorgesehenen Amazon Simple Storage Service (Amazon S3)-Bucket gespeichert.

AWS Clean Rooms kann Daten von Amazon S3, Amazon Athena oder Snowflake verwenden, ohne dass Sie Ihre zugrunde liegenden Datensätze verschieben, anzeigen oder kopieren müssen. AWS Clean Rooms liest Daten aus der Quelle, wenn Abfragen ausgeführt werden, wodurch die Komplexität und die Kosten der Replikation von Datensätzen in eine separate Umgebung vermieden werden. Weitere Informationen zur Unterstützung mehrere Clouds und Datenquellen durch AWS Clean Rooms finden Sie hier.

AWS Clean Rooms unterstützt bis zu fünf Teilnehmer pro Kollaboration.

Sie bestimmen, wer an Ihrer Kollaboration in AWS Clean Rooms teilnehmen kann. Sie können eine Kollaboration erstellen oder eine Einladung zur Zusammenarbeit annehmen. Die Teilnahme an einer Kollaboration ist für alle Teilnehmer transparent und es können keine neuen Konten hinzugefügt werden, nachdem die Kollaboration erstellt wurde. Sie können jedoch bei Bedarf neue Kollaborationen mit anderen Kunden oder Partnern einrichten. Sie erstellen und verwalten den Zugriff auf Ihre Inhalte sowie den Zugriff auf AWS-Services und -Ressourcen über Benutzer, Gruppen, Berechtigungen und Anmeldeinformationen, die Sie kontrollieren.

Kunden können mithilfe von SQL, Spark SQL, PySpark oder der AWS-Clean-Rooms-ML-Modellierung für ihre kollektiven Datensätze Erkenntnisse mit ihren Partnern generieren – ohne die zugrunde liegenden Daten zu teilen oder preiszugeben. Wenn Sie eine AWS-Clean-Rooms-Kollaboration einrichten, können Sie für jedes Kollaborationsmitglied unterschiedliche Fähigkeiten angeben, um Ihren spezifischen Anwendungsfällen gerecht zu werden. Beim Beitritt zu einer Kollaboration in AWS Clean Rooms vereinbaren die Mitarbeiter, welche Partei die Analyse durchführt, welche Partei die Ergebnisse erhält und welche Partei für die Rechenkosten verantwortlich ist. Nur diejenigen, die Sie zu dieser Kollaboration einladen, können auf der Grundlage der von Ihnen festgelegten Analyseregeln Erkenntnisse gewinnen.

Mit der Spark-SQL-Analyse kann nur ein Kollaborationsteilnehmer SQL-Abfragen ausführen, aber mehrere Teilnehmer können Daten beitragen und Ergebnisse erhalten. Wenn Sie beispielsweise möchten, dass die Abfrageausgabe an verschiedene Mitglieder gesendet wird, können Sie ein Mitglied als Query Runner festlegen, der Abfragen schreiben kann, und andere Mitglieder als Empfänger der Abfrageergebnisse, die die Ergebnisse empfangen können. Auf diese Weise kann der Ersteller der Kollaboration sicherstellen, dass mehrere Mitglieder Analyseergebnisse erhalten und dass das abfragende Mitglied keinen Zugriff auf die Abfrageergebnisse hat. Mit der SQL-Analyse können mehrere Mitarbeiter Daten beitragen, aber nur ein Mitarbeiter kann SQL-Abfragen ausführen und nur einer kann die Ergebnisse erhalten. Wenn Sie beispielsweise möchten, dass die Abfrageausgabe an ein anderes Mitglied gesendet wird, können Sie ein Mitglied als Query Runner festlegen, der Abfragen schreiben kann, und ein anderes Mitglied als Empfänger der Abfrageergebnisse, der die Ergebnisse empfangen kann. Auf diese Weise kann der Ersteller der Kollaboration sicherstellen, dass das abfragende Mitglied keinen Zugriff auf die Abfrageergebnisse hat.

Mit der PySpark-Analyse können mehrere Mitarbeiter Daten beitragen, aber nur ein Mitarbeiter kann Aufträge ausführen und nur dieser erhält die Ergebnisse.

Mit AWS Clean Rooms ML bringt ein Mitarbeiter die Stichprobe von Datensätzen, auf deren Grundlage er ähnliche Segmente von seinem Partner finden möchte. Die andere Partei hat die größere Population, aus der wir Lookalike-Segmente anhand ihrer Ähnlichkeit mit den Beispieldatensätzen generieren. AWS Clean Rooms ML sendet die ausgegebenen Lookalike-Segmente an ein Ziel, das von der Partei angegeben wird, die die größere Population mitbringt, von der wir die Lookalike-Segmente ableiten.

AWS Entity Resolution ist nativ in AWS Clean Rooms integriert. Sie können den regelbasierten oder auf Datendienstleistern basierenden Abgleich verwenden, um Ihre Benutzerdaten mit den Daten Ihrer Partner aufzubereiten, abzugleichen und zu verknüpfen. Verwenden Sie dazu einen beliebigen gemeinsamen Schlüssel (z. B. pseudonymisierte Identifikatoren) im Rahmen einer datenschutzorientierten Kollaboration in AWS Clean Rooms. Um die AWS-Entity-Resolution-Abgleichfunktionen in einer Kollaboration anzuwenden, müssen Sie in Amazon S3 gespeicherte Daten verwenden.

AWS Clean Rooms ist verfügbar in USA Ost (Ohio), USA Ost (Nord-Virginia), USA West (Oregon), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Tokio), Europa (Frankfurt), Europa (Irland), Europa (London) und Europa (Stockholm).

Mit AWS Clean Rooms können Sie flexible Analysetools und datenschutzverbesserndes ML verwenden, um Ihre Geschäftsanforderungen zu erfüllen. Wenn Sie die SQL-, Spark-SQL- oder PySpark-Analyse verwenden, können Sie flexibel wählen, welcher Mitarbeiter für die Rechenkapazität der in einer Kollaboration ausgeführten SQL-Abfragen oder Aufträge bezahlt, und zwar in einer Clean-Rooms-Verarbeitungseinheit (CRPU) – Stunden pro Sekunde (mit einer Mindestgebühr von 60 Sekunden). Wenn Sie AWS Clean Rooms ML verwenden, zahlen Sie nur für die von Ihnen angeforderten Modelltrainings und für die erstellten Lookalike-Segmente auf Basis eines Preises pro 1 000 Profile. Weitere Informationen finden Sie unter AWS Clean Rooms – Preise.

Mit AWS Entity Resolution in AWS Clean Rooms können Sie einen regelbasierten oder auf Datendienstleistern basierenden Abgleich verwenden, der Anbieterdatensätze (wie LiveRamp) nutzt.

Wenn Sie den regelbasierten Abgleich verwenden, muss mindestens ein Mitglied einer Kollaboration seine Daten vor dem Abgleich mit den Datensätzen seiner Mitarbeitenden aufbereiten, es sei denn, es hat seine Daten bereits mit AWS Entity Resolution vorbereitet, bevor es die Kollaboration erstellt oder ihr beigetreten ist. Dieses Mitglied zahlt nur für die Datenaufbereitung, wenn sie verwendet wird. Jedes Mitglied, das an einer Kollaboration teilnimmt, kann für den Datenabgleich bezahlen. Für den Datenabgleich ist außerdem eine einmalige Gebühr pro Kollaboration erforderlich. Diese Gebühr wird allen Mitarbeitenden zugewiesen, die für den Datenabgleich bezahlen.

Wenn Sie den Abgleich basierend auf Datendienstleistern verwenden, müssen alle Kollaborationsmitglieder über ein Abonnement des Dienstleisters verfügen, um ihre Daten mithilfe der Dienstleister-IDs aufbereiten zu können. Alle Kollaborationsmitglieder müssen ihre Daten mithilfe von Dienstleister-IDs aufbereiten, bevor sie mit den Datensätzen ihrer Mitarbeitenden abgeglichen werden, es sei denn, sie haben ihre Daten bereits mit AWS Entity Resolution aufbereitet, bevor sie die Kollaboration erstellt oder ihr beigetreten sind. Jedes Mitglied, das an einer Kollaboration teilnimmt, kann für den Datenabgleich mittels Dienstleister-IDs bezahlen. Darüber hinaus muss das Mitglied, das für den Datenabgleich bezahlt, über ein Abonnement des Dienstleisters verfügen. Sie können die auf AWS Data Exchange (ADX) aufgeführten öffentlichen Abonnements verwenden oder ein privates Abonnement direkt beim Datendienstanbieter Ihrer Wahl erwerben und dann Bring Your Own Subscription (BYOS) für ADX verwenden. 

Weitere Informationen finden Sie unter AWS Clean Rooms – Preise unter AWS Entity Resolution.

Sicherheit und Datenschutz

Alles öffnen

Datenschutz beginnt mit der Sicherheitsgrundlage von AWS, und AWS Clean Rooms basiert auf AWS-Sicherheitsservices wie AWS Identity and Access Management (IAM), AWS Key Management Service (KMS) und AWS CloudTrail. Auf diese Weise können Sie Ihre bestehende Datenschutzstrategie auf Workloads für die Datenzusammenarbeit ausweiten. Mit AWS Clean Rooms brauchen Sie keine Kopie Ihrer Daten mehr außerhalb Ihrer AWS-Umgebung zu speichern oder zu pflegen und an eine andere Partei zu senden, um Analysen für Kundenerkenntnisse, Marketingmessungen, Prognosen oder Risikobewertungen durchzuführen.

Wenn Sie eine AWS-Clean-Rooms-Kollaboration einrichten und die SQL-Analyse verwenden, können Sie für jedes Kollaborationsmitglied unterschiedliche Fähigkeiten angeben, um Ihren spezifischen Anwendungsfällen gerecht zu werden. Wenn Sie beispielsweise möchten, dass die Ausgabe der Abfrage an ein anderes Element gesendet wird, können Sie ein Mitglied als Abfrageausführer festlegen, der Abfragen schreiben kann, und ein anderes Mitglied als Empfänger der Abfrageergebnisse, der die Ergebnisse empfangen kann. Auf diese Weise kann der Ersteller der Zusammenarbeit sicherstellen, dass das Mitglied, das die Anfrage stellen kann, keinen Zugriff auf die Abfrageergebnisse hat.

AWS Clean Rooms verfügt auch über SQL-Abfragekontrollen, mit denen Sie die Art der Abfragen oder bestimmte Abfragen, die auf Ihren Datentabellen ausgeführt werden können, durch die Konfiguration von Analyseregeln einschränken können. AWS Clean Rooms unterstützt drei Arten von SQL-Analyseregeln: Aggregation, Liste und benutzerdefinierte Regeln. Mit der Aggregations-Analyseregel können Sie Ihre Tabelle so konfigurieren, dass nur Abfragen erlaubt sind, die aggregierte Statistiken erzeugen (z. B. Kampagnenmessung oder Attribution). Mit der Listen-Analyseregel können Sie Steuerelemente so konfigurieren, dass Abfragen nur die Schnittmenge Ihrer Datensätze mit der des Mitglieds analysieren können, das Abfragen durchführen kann. Mit der benutzerdefinierten Analyseregel können Sie Steuerelemente auf Abfrageebene so konfigurieren, dass bestimmte Konten oder Abfragen für Ihren Datensatz ausgeführt werden können. Wenn Sie benutzerdefinierte Analyseregeln verwenden, können Sie Differential Privacy verwenden. AWS Clean Rooms Differential Privacy hilft Ihnen, die Privatsphäre Ihrer Benutzer mit mathematisch gestützten und intuitiven Steuerelementen mit wenigen Klicks zu schützen. Da es sich um eine vollständig verwaltete Funktion von AWS Clean Rooms handelt, ist keine vorherige Erfahrung im Bereich Datenschutz erforderlich, um die erneute Identifizierung Ihrer Benutzer zu verhindern. Eine weitere Kontrolle sind Aggregationsschwellenwerte, die verhindern, dass Abfragen auf kleine, potenziell wiederidentifizierbare Gruppen zugreifen.

Mit AWS Clean Rooms ML werden Ihre Daten nur zum Trainieren Ihres Modells und nicht für das AWS-Modelltraining verwendet. AWS Clean Rooms ML verwendet keine Trainings- oder Lookalike-Segmentdaten eines Unternehmens mit einem anderen und Sie können Ihre Modell- und Trainingsdaten jederzeit löschen.

Nein. Datensätze werden in den AWS- oder Snowflake-Data-Lakes der Mitarbeiter gespeichert und nicht verschoben. AWS Clean Rooms liest vorübergehend Daten aus Konten von Mitarbeitenden, um Abfragen auszuführen, Datensätze abzugleichen, ML-Modelle zu trainieren oder Startsegmente zu erweitern. Die Ergebnisse einer Analyse werden an den S3-Standort gesendet, der für die Analyse vorgesehen ist. Während der Zusammenarbeit werden keine Daten, die aus einem Data Lake gelesen werden, dauerhaft in AWS gespeichert, und alle Daten, die vorübergehend in die AWS-Clean-Rooms-Umgebung gelesen werden, werden nach Abschluss der Abfrage gelöscht.

AWS Entity Resolution in AWS Clean Rooms generiert einen Datensatz, der den Identifikatoren der einzelnen Parteien in einer Kollaboration zugeordnet wird. Der Zuordnungsdatensatz wird von AWS Clean Rooms verwaltet. Kein Mitglied der Kollaboration kann die Zuordnungstabelle anzeigen oder herunterladen. Wenn sich alle Mitglieder der Kollaboration darauf einigen, diese Datenschutzbestimmungen zu lockern, kann die Zuordnungstabelle für bestimmte Anwendungsfälle abgefragt werden. Jede Partei kann die Tabelle jederzeit löschen.

Von AWS Clean Rooms ML generierte Modelle werden vom Service gespeichert, können mit einem vom Kunden verwalteten AWS-KMS-Schlüssel verschlüsselt und vom Kunden jederzeit gelöscht werden.

Mit den Verschlüsselungs- und Analyseregeln von AWS Clean Rooms können Sie die Art der Informationen, die Sie freigeben möchten, genau steuern. Als Bereitsteller von Daten für den Zusammenarbeitsbereich sind Sie dafür verantwortlich, das Risiko jeder Zusammenarbeit zu bewerten, einschließlich des Risikos der Re-Identifizierung, und Ihre eigene zusätzliche Sorgfaltspflicht zu erfüllen, um die Einhaltung aller Datenschutzgesetze sicherzustellen. Wenn es sich bei den Daten, die Sie weitergeben, um vertrauliche oder regulierte Daten handelt, empfehlen wir Ihnen außerdem die Verwendung geeigneter rechtlicher Vereinbarungen und Prüfmechanismen, um die Risiken für den Datenschutz weiter zu verringern.

Ja. Die AWS-Servicebedingungen verbieten bestimmte Anwendungsfälle für die Zusammenarbeit in AWS Clean Rooms.

Ja. Das HIPAA-Compliance-Programm von AWS umfasst AWS Clean Rooms als HIPAA-fähigen Service. Wenn Sie ein Business Associate Agreement (BAA) mit AWS abgeschlossen haben, können Sie jetzt AWS Clean Rooms verwenden, um HIPAA-konforme Kooperationen zu erstellen. Wenn Sie keine BAA oder weitere Fragen zur Verwendung von AWS für Ihre HIPAA-konformen Anwendungen haben, setzen Sie sich mit uns in Verbindung.

Weitere Informationen finden Sie in den folgenden Ressourcen:

AWS-Seite zur Compliance mit HIPAA

AWS-Seite zum Cloud Computing im Gesundheitswesen

AWS Clean Rooms ML

Alles öffnen

AWS Clean Rooms ML unterstützt Sie und Ihre Partner bei der Anwendung von datenschutzverbesserndem Machine Learning (ML), um prädiktive Erkenntnisse zu generieren, ohne dass Sie Rohdaten miteinander teilen müssen. AWS Clean Rooms ML unterstützt benutzerdefinierte und Lookalike-Machine-Learning-Modellierung. Mit der benutzerdefinierten Modellierung können Sie ein benutzerdefiniertes Modell für das Training erstellen und Inferenzen auf kollektiven Datensätzen ausführen, ohne die zugrunde liegenden Daten oder das geistige Eigentum unter den Kollaborationsmitgliedern zu teilen. Sie können außerdem synthetische Datensätze für das Training Ihrer benutzerdefinierten ML-Modelle generieren.  Mit der Lookalike-Modellierung können Sie ein von AWS erstelltes Modell verwenden, um einen erweiterten Satz ähnlicher Profile zu generieren, der auf einer kleinen Stichprobe von Profilen basiert, die Ihre Partner in eine Kollaboration einbringen.

AWS Clean Rooms ML hilft Kunden bei mehreren Anwendungsfällen. Werbetreibende können beispielsweise ihr proprietäres Modell und ihre Daten in eine Clean-Rooms-Kollaboration einbringen und Publisher einladen, ihre Daten hinzuzufügen, um ein benutzerdefiniertes ML-Modell zu trainieren und bereitzustellen, das ihnen dabei hilft, die Effektivität ihrer Kampagnen zu steigern. Finanzinstitute können historische Transaktionsaufzeichnungen verwenden, um ein benutzerdefiniertes ML-Modell zu trainieren, und Partner zu einer Clean-Rooms-Kollaboration einladen, um potenziell betrügerische Transaktionen zu erkennen. Forschungseinrichtungen und Krankenhausnetzwerke können Kandidaten finden, die bestehenden Teilnehmern an klinischen Studien ähneln, um klinische Studien zu beschleunigen, und Marken und Publisher können ähnliche Segmente von Kunden im Markt modellieren und hochrelevante Werbeerlebnisse liefern, ohne dass eines der Unternehmen die zugrunde liegenden Daten mit dem anderen teilt.

Mit der benutzerdefinierten Modellierung von AWS Clean Rooms ML können Sie Ihre eigenen Machine Learning (ML)-Modelle, -Algorithmen und -Daten in eine Kollaboration mit Ihren Partnern einbringen, um ML-Modelle zu trainieren und Inferenzen auf kollektiven Datensätzen durchzuführen, ohne sensible Daten oder proprietäre ML-Modelle teilen zu müssen. Sie können außerdem synthetische Datensätze für das Training Ihrer benutzerdefinierten ML-Modelle generieren.

Die benutzerdefinierte Modellierung von AWS Clean Rooms ML unterstützt ML-Trainings- und ML-Inferenz-Workflows. Bei beiden Workflows definieren Sie zunächst eine Spark-SQL-Abfrage in AWS Clean Rooms, die zur Generierung eines Datensatzes für den Trainings- oder Inferenzschritt verwendet wird. Der Zwischendatensatz wird innerhalb der Clean-Room-Kollaboration aufbewahrt und kann nur für genehmigte Aufgaben in AWS Clean Rooms ML verwendet werden. Der zweite Schritt ist das Training oder die Inferenz des ML-Modells. ML-Modelle und Code werden in einem Container-Image verpackt. Ein trainiertes Modell kann in der Zusammenarbeit beibehalten und als Teil eines Inferenz-Workflows verwendet oder in einem nachfolgenden Trainingsjob aktualisiert werden. Mit AWS Clean Rooms ML werden Ihre Daten nur zum Trainieren Ihres benutzerdefinierten Modells verwendet und nicht an andere Beteiligte weitergegeben oder für das Training von AWS-Modellen verwendet. Sie können Ihre Daten jederzeit aus Clean Rooms ML entfernen oder ein benutzerdefiniertes Modell löschen und datenschutzverbessernde Kontrollen anwenden, um sensible Daten zu schützen, die Sie in eine Kollaboration einbringen. Um die benutzerdefinierte Modellierung von AWS Clean Room ML anzuwenden, müssen Sie Spark SQL als Analyse-Engine verwenden.

Mit der Lookalike-Modellierung in AWS Clean Rooms ML können Sie ein von AWS erstelltes Modell verwenden, um einen erweiterten Satz ähnlicher Profile auf der Grundlage einer kleinen Stichprobe von Profilen zu generieren, die Ihre Partner in eine Kollaboration einbringen, wobei die zugrunde liegenden Daten von Ihnen und Ihren Partnern geschützt werden. Sie können Ihre Partner in einen Clean Room einladen und das von AWS erstellte ML-Modell anwenden, das für jede Kollaboration trainiert wird, um in wenigen Schritten Lookalike-Datensätze zu generieren. So sparen Sie sich monatelange Entwicklungsarbeit für den Aufbau, das Training, die Feinabstimmung und die Bereitstellung Ihres eigenen Modells. Die Lookalike-Modellierung von AWS Clean Rooms ML wurde für verschiedene Datensätze wie E-Commerce und Videostreaming entwickelt und getestet und kann Kunden dabei helfen, die Genauigkeit der Lookalike-Modellierung im Vergleich zu repräsentativen Branchen-Baselines um bis zu 36 % zu verbessern. In realen Anwendungen wie der Neukundenakquise kann diese Verbesserung der Genauigkeit zu Einsparungen in Millionenhöhe führen.

Die Lookalike-Modellierung von AWS Clean Rooms ML nimmt eine kleine Stichprobe von Datensätzen einer Partei und findet eine viel größere Menge von Datensätzen oder Lookalike-Segmenten aus dem Datensatz eines anderen Kooperationspartners. Sie können die gewünschte Größe des resultierenden Lookalike-Segments angeben. AWS Clean Rooms ML gleicht die eindeutigen Profile in Ihrer Stichprobenliste privat mit denen im Datensatz Ihres Partners ab und trainiert dann ein ML-Modell, das vorhersagt, wie ähnlich jedes Profil im Datensatz Ihres Mitarbeiters denen in Ihrer Stichprobe ist. AWS Clean Rooms ML gruppiert automatisch die Profile, die der Beispielliste ähneln, und gibt das resultierende Lookalike-Segment aus. Mit AWS Clean Rooms ML müssen Sie keine Daten austauschen, um ML-Modelle mit Ihren Partnern zu erstellen, zu trainieren und bereitzustellen. Mit AWS Clean Rooms ML werden Ihre Daten nur zum Trainieren Ihres Modells und nicht für das AWS-Modelltraining verwendet. Sie können intuitive Kontrollen verwenden, mit denen Sie und Ihre Partner die Prognoseergebnisse des Modells optimieren können. Um die Lookalike-Modellierung von AWS Clean Rooms ML anzuwenden, muss Ihr Trainingsdatensatz Daten verwenden, die in Amazon S3 gespeichert sind. Startdaten können in Amazon S3 gespeichert oder mithilfe einer SQL-Abfrage in einer Kooperation erstellt werden.

Synthetische Datensätze in AWS Clean Rooms ML

Alles öffnen

Synthetische Daten sind Daten, die nicht aus realen Messungen gewonnen, sondern durch einen Algorithmus generiert werden, beispielsweise durch generative KI-Technologien. Synthetische Datensätze – eine Sammlung algorithmisch erstellter Datenpunkte – können die statistischen Eigenschaften und Muster realer Daten nachahmen, obwohl sie teilweise oder vollständig fiktiv sind. Durch die Verwendung synthetischer Datensätze können Unternehmen KI-Modelle trainieren, Analysen durchführen und Anwendungen entwickeln, ohne das Risiko einzugehen, sensible Informationen preiszugeben.

Mit der benutzerdefinierten Modellierung von AWS Clean Rooms ML können Sie und Ihre Partner statistisch repräsentative synthetische Datensätze aus Ihren kollektiven Daten generieren, um Regressions- und Klassifikations-ML-Modelle zu trainieren, ohne vertrauliche Informationen aus den Originaldaten preiszugeben. Diese Funktion anonymisiert Subjekte – beispielsweise Personen oder Organisationen, über die Daten gesammelt wurden – in den Originaldaten und mindert so das Risiko, dass ein Modell Informationen über Personen in den Trainingsdaten speichert.

Die Generierung synthetischer Datensätze zur Verbesserung des Datenschutzes durch AWS Clean Rooms ML ist für die Erstellung tabellarischer Datensätze zum Trainieren von Regressions- und Klassifizierungsmodellen optimiert. Die Datensätze sind nicht für das Training großer Sprachmodelle (LLMs) oder anderer Basismodelle vorgesehen.

Geben Sie zum Erstellen eines synthetischen Datensatzes zunächst eine Spalte mit vorhergesagten Werten in Ihrem ursprünglichen Datensatz an, um ein benutzerdefiniertes ML-Modell zu trainieren. AWS Clean Rooms ML trainiert ein spezielles Modell zur Verbesserung des Datenschutzes anhand Ihres Datensatzes, um Vorhersagen aus der angegebenen Spalte zu generieren. Synthetische Datensätze werden generiert, indem jede der Spalten mit nicht vorhergesagten Werten anhand des speziell auf Ihre Daten trainierten Modells abgetastet wird, um die endgültige Spalte abzuleiten. Die Generierung synthetischer Datensätze in AWS Clean Rooms ML beseitigt die Korrelation zwischen Spalten mit nicht vorhergesagten Werten, indem eine kalibrierte Menge an Rauschen in die vorhergesagten Werte eingefügt wird.

Nein, bei der Generierung synthetischer Datensätze in AWS Clean Rooms ML werden keine einzelnen Werte aus Ihrem Datensatz geändert oder entfernt. Synthetische Zeilen werden durch Stichproben aus den Werten im Eingabedatensatz generiert. Jeder Wert im Eingabedatensatz könnte in den synthetischen Datensatz aufgenommen werden.

Hinweis: Die Generierung synthetischer Datensätze schützt davor, dass Rückschlüsse auf individuelle Merkmale von Personen im ursprünglichen Datensatz gezogen werden. Wir empfehlen, persönlich identifizierbare Informationen (PII) auszuschließen, um zu verhindern, dass wörtliche Werte aus dem ursprünglichen Datensatz im synthetischen Datensatz erscheinen. Direkte Identifikatoren wie E-Mail-Adresse, Telefonnummer, nationale Identifikationsnummer oder Adresse sollten nicht im ursprünglichen Datensatz enthalten sein. Sie können als Verknüpfungsschlüssel in der Abfrage verwendet werden, die den ML-Eingabekanal generiert, sollten jedoch nicht in die Analysevorlage aufgenommen werden, die für die Generierung synthetischer Datensätze verwendet wird. Weitere Informationen finden Sie in der Dokumentation.

Sie können zunächst eine AWS-Clean-Rooms-Kollaboration mit Ihren Partnern einrichten und Ihren Modellalgorithmus und Ihre Datensätze definieren. Als Nächstes erstellen Sie eine SQL-Abfrage, die sowohl die zu synthetisierenden Daten als auch wichtige Datenschutzkontrollen festlegt, darunter Rauschpegel zur Verhinderung der erneuten Identifizierung von Benutzern und Schutzmaßnahmen gegen gängige Sicherheitsbedrohungen. Sobald alle Datenbesitzer dieses Setup genehmigt haben, beginnt die Generierung synthetischer Daten. Vor der Verwendung der synthetischen Daten können Modellbesitzer umfassende Metriken überprüfen, die sowohl die statistische Ähnlichkeit mit den Originaldaten als auch die Stärke des Datenschutzes anzeigen. Schließlich können Sie entweder Ihre benutzerdefinierten Modelle mit diesen synthetischen Daten trainieren und die Modellgewichtungen exportieren oder direkt mit der Ausführung von Inferenzaufträgen für das trainierte Modell fortfahren. Informationen zum Einstieg finden Sie in der Dokumentation.

PySpark

Alles öffnen

Sie können wählen, ob Sie die Spark-Analytik-Engine verwenden möchten, um PySpark-Skripte in AWS-Clean-Rooms-Kollaborationen auszuführen. PySpark bietet konfigurierbare Datenverarbeitungsgrößen, um bei der Ausführung von PySpark-Workloads eine bessere Kontrolle über das Preis-Leistungs-Verhältnis zu ermöglichen.

PySpark-Aufträge in AWS Clean Rooms verwenden den Standard-Instance-Typ CR.1X, der 4 vCPUs, 30 GB Arbeitsspeicher und 100 GB Speicher bereitstellt. Sie können sich dafür entscheiden, mehr Ressourcen für die Ausführung Ihrer PySpark-Workloads bereitzustellen, indem Sie den größeren CR.4X-Instance-Typ auswählen, der 16 vCPUs, 120 GB Arbeitsspeicher und 400 GB Speicher bietet. Größere Instance-Größen können PySpark-Workloads zugute kommen, die große Datenmengen verarbeiten und komplexe Analytik durchführen, wodurch die Workloads auf eine höhere Anzahl von Ressourcen verteilt werden können. Weitere Informationen über die zugehörige vCPU, den Arbeitsspeicher und den Speicher für jede Konfiguration finden Sie hier.

Sie haben die Flexibilität, Python-Skripte mitzubringen, und können optional Ihre eigenen benutzerdefinierten oder Open-Source-Bibliotheken in Python bereitstellen.

Für die Verwendung von PySpark in AWS Clean Rooms gelten separate Preise. Weitere Informationen zur Preisgestaltung von PySpark finden Sie unter AWS Clean Rooms – Preise.

SQL-Analysen

Alles öffnen

Sie können wählen, ob Sie die Spark-Analytik-Engine verwenden möchten, um Abfragen mithilfe des Spark-SQL-Dialekts in Kollaborationen mit AWS Clean Rooms auszuführen. AWS Clean Rooms SQL bietet konfigurierbare Datenverarbeitungsgrößen, um bei der Ausführung von SQL-Workloads eine bessere Kontrolle über das Preis-Leistungs-Verhältnis zu ermöglichen.

AWS Clean Rooms SQL verwendet den Standard-Instance-Typ CR.1X, der 4 vCPUs, 30 GB Arbeitsspeicher und 100 GB Speicher bereitstellt. Sie können sich dafür entscheiden, mehr Ressourcen für die Ausführung Ihrer Spark-SQL-Workloads bereitzustellen, indem Sie den größeren CR.4X-Instance-Typ auswählen, der 16 vCPUs, 120 GB Arbeitsspeicher und 400 GB Speicher bietet. Größere Instance-Größen können SQL-Workloads zugute kommen, die große Datenmengen verarbeiten und komplexe Analytik durchführen, wodurch die Workloads auf eine höhere Anzahl von Ressourcen verteilt werden können. Weitere Informationen über die zugehörige vCPU, den Arbeitsspeicher und den Speicher für jede Konfiguration finden Sie hier.

In den Aggregationsanalyseregeln konfigurieren Sie Kontrollen auf Spaltenebene, mit denen Sie festlegen können, wie die einzelnen Spalten in Abfragen verwendet werden können. Sie können zum Beispiel festlegen, welche Spalten zur Berechnung von Aggregatstatistiken (z. B. SUM(Preis)) verwendet werden können und welche Spalten zur Verknüpfung Ihrer Tabelle mit anderen Kollaborationsmitgliedern verwendet werden können. In der Aggregationsanalyseregel können Sie auch einen Mindestaggregationsschwellenwert festlegen, den jede Ausgabezeile erfüllen muss. Zeilen, die den Mindestschwellenwert nicht erfüllen, werden von AWS Clean Rooms automatisch herausgefiltert.

Ja. Sie können AWS Clean Rooms so konfigurieren, dass Abfrageprotokolle in Amazon CloudWatch Logs veröffentlicht werden. Mit der benutzerdefinierten Analyseregel können Sie auch Abfragen (in Analysevorlagen gespeichert) überprüfen, bevor sie in der Kollaboration ausgeführt werden. 

AWS Clean Rooms Differential Privacy

Alles öffnen

Differenzieller Datenschutz ist ein mathematisch erprobtes Framework zur Unterstützung des Datenschutzes. Der Hauptvorteil von differenziellem Datenschutz besteht darin, Daten auf individueller Ebene zu schützen, indem ein kontrolliertes Maß an Zufälligkeit – Rauschen – hinzugefügt wird, um die Anwesenheit oder Abwesenheit einer einzelnen Person in einem Datensatz, der analysiert wird, zu verschleiern.

AWS Clean Rooms Differential Privacy hilft Ihnen, die Privatsphäre Ihrer Benutzer mit mathematisch gestützten und intuitiven Steuerelementen mit wenigen Schritten zu schützen. Da es sich um eine vollständig verwaltete Funktion von AWS Clean Rooms handelt, ist keine vorherige Erfahrung im Bereich Datenschutz erforderlich, um die erneute Identifizierung Ihrer Benutzer zu verhindern. AWS Clean Rooms Differential Privacy verschleiert den Beitrag der Daten einzelner Personen zur Generierung aggregierter Erkenntnisse über Kollaborationen, sodass Sie eine Vielzahl von SQL-Abfragen ausführen können, um Erkenntnisse über Werbekampagnen, Investitionsentscheidungen, klinische Forschung und mehr zu erhalten.

Sie können mit der Nutzung von AWS Clean Rooms Differential Privacy in nur wenigen Schritten beginnen, nachdem Sie als Mitglied, das Daten beisteuern kann, eine Kollaboration mit AWS Clean Rooms gestartet oder dieser beigetreten sind. Nachdem Sie eine konfigurierte Tabelle erstellt haben, die ein Verweis auf Ihre Tabelle im AWS-Glue-Datenkatalog ist, aktivieren Sie einfach den differenziellen Datenschutz, während Sie der konfigurierten Tabelle eine benutzerdefinierte Analyseregel hinzufügen. Als Nächstes verknüpfen Sie die konfigurierte Tabelle mit Ihrer AWS-Clean-Rooms-Kollaboration und konfigurieren eine unterschiedliche Datenschutzrichtlinie in der Zusammenarbeit, um Ihre Tabelle für Abfragen verfügbar zu machen. Sie können eine Standardrichtlinie verwenden, um das Setup schnell abzuschließen, oder sie an Ihre spezifischen Anforderungen anpassen. Um AWS Clean Rooms Differential Privacy in einer Zusammenarbeit anzuwenden, müssen Daten verwenden, die in Amazon S3 gespeichert sind.

Sobald AWS Clean Rooms Differential Privacy eingerichtet ist, kann Ihr Kooperationspartner damit beginnen, Abfragen in Ihrer Tabelle auszuführen – ohne dass er Fachwissen über unterschiedliche Datenschutzkonzepte oder zusätzliche Einstellungen von seinen Partnern benötigt. Mit AWS Clean Rooms Differential Privacy können Query Runner benutzerdefinierte und flexible Analysen durchführen, einschließlich komplexer Abfragemuster mit Common Table Expressions (CTEs) und häufig verwendeten Aggregatfunktionen wie ANZAHL und SUMME.

Kryptografisches Computing

Alles öffnen

Kryptografisches Computing ist eine Methode zum Schutz und zur Verschlüsselung sensibler Daten, während sie verwendet werden. Daten können im Ruhezustand verschlüsselt werden, wenn sie gespeichert werden,, wenn sie übertragen werden und wenn sie in Gebrauch sind. Verschlüsselung bedeutet die Umwandlung von Klartextdaten in verschlüsselte Daten, die ohne einen bestimmten „Schlüssel“ nicht entschlüsselt werden können. Die Überkreuzung privater Datensätze (Private Set Intersection, PSI) ist eine Art der Verarbeitung kryptografischer Daten, die es zwei oder mehr Parteien, die über Datensätze verfügen, ermöglicht, verschlüsselte Versionen zu vergleichen, um Berechnungen durchzuführen. Die Verschlüsselung erfolgt On-Premises mit dem gemeinsamen geheimen Schlüssel der Teilnehmer. C3R ist sowohl für die Spark-SQL-Analytik-Engine als auch für die SQL-Analytik-Engine verfügbar.

AWS Clean Rooms umfasst kryptografisches Computing für Clean Rooms (C3R), was die Möglichkeit bietet, Daten mit einem clientseitigen Verschlüsselungstool – einem SDK oder einer Befehlszeilenschnittstelle (CLI) – vorzuverschlüsseln, das bzw. die einen gemeinsamen geheimen Schlüssel mit anderen Teilnehmern einer AWS-Clean-Rooms-Kollaboration verwendet. Dadurch werden die Daten bei der Ausführung von Abfragen verschlüsselt.