- Analytique›
- AWS Clean Rooms›
- FAQ
FAQ AWS Clean Rooms
Général
Ouvrir toutAWS Clean Rooms vous permet, ainsi qu'à vos partenaires, d'analyser plus facilement vos jeux de données collectifs et de collaborer plus aisément afin d'obtenir de nouvelles informations sans dévoiler les données sous-jacentes. Vous pouvez créer vos propres salles blanches en quelques minutes, et commencer à analyser vos jeux de données collectifs avec vos partenaires en quelques étapes. Avec AWS Clean Rooms, vous pouvez facilement collaborer avec n’importe quelle entreprise sur AWS et Snowflake, sans qu’aucune partie n’ait à déplacer, révéler ou copier ses jeux de données sous-jacents.
Les collaborations AWS Clean Rooms constituent des limites logiques sécurisées qui permettent aux membres de la collaboration d’exécuter des analyses SQL, Spark SQL et PySpark, et d’effectuer des modélisations de machine learning sans partager de données brutes avec leurs partenaires. Seules les entreprises qui ont été invitées à participer à la collaboration peuvent y participer, et plusieurs participants peuvent fournir des données à une collaboration en salle blanche.
Dans la console de gestion AWS, vous pouvez choisir le type d’analyse que vous souhaitez effectuer, les partenaires avec lesquels vous souhaitez collaborer et les jeux de données que vous souhaitez apporter à une collaboration. Avec AWS Clean Rooms, vous pouvez effectuer trois types d’analyses : les analyses SQL, PySpark et le machine learning.
AWS Clean Rooms propose un moteur d’analytique basé sur Spark SQL pour exécuter des requêtes dans le cadre d’une collaboration Clean Rooms. AWS Clean Rooms Spark SQL propose des tailles de calcul configurables afin d’offrir une flexibilité accrue pour personnaliser et allouer des ressources afin d’exécuter des requêtes SQL en fonction de vos exigences en matière de performances, de mise à l’échelle et de coûts. Lorsque vous exécutez des requêtes SQL, AWS Clean Rooms lit les données là où elles se trouvent et applique des règles d’analyse intégrées et flexibles pour vous permettre de garder le contrôle de vos données. AWS Clean Rooms fournit un large éventail de contrôles SQL améliorant la confidentialité (y compris des contrôles de requête, des restrictions de sortie de requête et une journalisation des requêtes), ce qui vous permet de personnaliser les restrictions sur les requêtes exécutées par chaque participant de salle blanche. La confidentialité différentielle AWS Clean Rooms vous aide à protéger la vie privée de vos utilisateurs grâce à des commandes intuitives et soutenues par des critères mathématiques en quelques clics. Vous pouvez utiliser la confidentialité différentielle AWS Clean Rooms en configurant les paramètres de confidentialité différentielle souhaités lors de l’exécution de vos requêtes. De plus, l’outil de cryptographie informatique pour les salles blanches (C3R) vous aide à maintenir le chiffrement des données sensibles lors de vos analyses SQL.
PySpark, dans AWS Clean Rooms, permet aux entreprises et à leurs partenaires d’effectuer des analytiques sophistiquées sur de grands jeux de données à l’aide de PySpark, l’API Python pour Apache Spark. Avec PySpark dans AWS Clean Rooms, vous et vos partenaires pouvez intégrer le code et les bibliothèques PySpark à une collaboration AWS Clean Rooms et effectuer des analyses avancées sans avoir à partager des données sous-jacentes ou des méthodes d’analyse propriétaires.
AWS Clean Rooms ML vous aide, vous et vos partenaires, à appliquer un machine learning (ML) qui améliore la confidentialité afin de générer des informations prédictives sans avoir à partager de données brutes entre vous. AWS Clean Rooms ML prend en charge la modélisation de machine learning (ML) personnalisée et similaire. Grâce à la modélisation personnalisée, vous pouvez apporter un modèle personnalisé pour l’entraînement et exécuter des inférences sur des jeux de données collectifs, sans partager les données sous-jacentes ou la propriété intellectuelle entre les collaborateurs. Avec la modélisation similaire, vous pouvez utiliser un modèle créé par AWS pour générer un ensemble étendu de profils similaires sur la base d’un petit échantillon de profils que vos partenaires apportent dans le cadre d’une collaboration. La modélisation similaire d’AWS Clean Rooms ML, utilisant un modèle créé par AWS, a été conçue et testée sur une grande variété de jeux de données, tels que le commerce électronique et le streaming vidéo, et peut aider les clients à améliorer la précision de modélisation similaire jusqu’à 36 %, par rapport aux données de référence représentatives du secteur. Dans des applications concrètes telles que la prospection de nouveaux clients, cette amélioration de la précision peut résulter sur des économies de plusieurs millions de dollars.
Vous pouvez utiliser la console de gestion AWS ou les opérations d’API pour créer une collaboration dans des salles blanches, inviter les entreprises avec lesquelles vous souhaitez collaborer et sélectionner les options de chaque participant au sein de la collaboration. Les participants peuvent ensuite définir des règles sur la manière dont les données structurées peuvent être interrogées et entraîner des modèles de machine learning sur leurs données. Les jeux de données ne sont pas copiés depuis les comptes des participants et ne sont accessibles qu’en cas de besoin. Avec AWS Clean Rooms, vous pouvez choisir le type d’analyse que vous souhaitez effectuer : analyses SQL, Spark SQL et PySpark, ainsi que modélisation ML à l’aide d'AWS Clean Rooms ML. Lorsque vous utilisez l’analyse SQL, vous pouvez utiliser des fonctionnalités telles que le générateur d’analyse sans programmation, la confidentialité différentielle AWS Clean Rooms et la cryptographie informatique. Lorsque vous utilisez l’analyse Spark SQL, vous pouvez choisir des tailles de calcul configurables afin d’offrir une flexibilité accrue pour personnaliser et allouer des ressources afin d’exécuter des requêtes SQL en fonction de vos exigences en matière de performances, de mise à l’échelle et de coûts. Avec PySpark dans AWS Clean Rooms, vous et vos partenaires pouvez intégrer le code et les bibliothèques PySpark à une collaboration AWS Clean Rooms et effectuer des analyses avancées sans avoir à partager des données sous-jacentes ou des méthodes d’analyse propriétaires. Avec AWS Clean Rooms ML, vous pouvez utiliser une modélisation similaire personnalisée ou créée par AWS pour générer des informations prédictives. Une fois que les participants à la collaboration ont associé des données ou des modèles à une collaboration et que les analyses ont été effectuées, les résultats de la collaboration seront stockés dans un compartiment Amazon Simple Storage Service (Amazon S3) désigné.
AWS Clean Rooms peut utiliser les données d’Amazon S3, Amazon Athena ou Snowflake sans avoir à déplacer, révéler ou copier vos jeux de données sous-jacents. AWS Clean Rooms lit les données depuis la source au moment de l’exécution des requêtes, évitant ainsi la complexité et les coûts liés à la réplication des jeux de données dans un environnement distinct. Pour en savoir plus sur la prise en charge par AWS Clean Rooms de plusieurs clouds et sources de données, cliquez ici.
AWS Clean Rooms prend en charge jusqu’à cinq participants par collaboration.
Vous pouvez contrôler les personnes autorisées à participer à votre collaboration AWS Clean Rooms et vous pouvez créer une collaboration ou rejoindre une invitation à collaborer. La participation est transparente pour chaque membre d’une collaboration et, une fois la collaboration créée, aucun nouveau compte ne peut y être ajouté. Si nécessaire, vous pouvez toutefois configurer des nouvelles collaborations avec différents clients ou partenaires. Vous établissez et gérez les accès à votre contenu. Vous définissez également l’accès aux services et ressources AWS par les utilisateurs, les groupes, les autorisations et les informations d’identification que vous contrôlez.
Les clients peuvent générer des informations à l’aide de la modélisation SQL, Spark SQL, PySpark ou AWS Clean Rooms ML sur leurs jeux de données collectifs avec leurs partenaires, sans partager ni révéler les données sous-jacentes. Lorsque vous configurez une collaboration AWS Clean Rooms, vous pouvez spécifier différentes options pour chaque membre de la collaboration en fonction de vos cas d’utilisation spécifiques. Lorsqu’ils rejoignent une collaboration AWS Clean Rooms, les collaborateurs conviennent de la partie qui effectuera l’analyse, de la partie qui recevra les résultats et de la partie qui sera responsable des frais de calcul. Seules les personnes que vous invitez à cette collaboration peuvent obtenir des informations suivant les règles d’analyse que vous fixez.
Avec l’analyse Spark SQL, un seul collaborateur peut exécuter des requêtes SQL, mais plusieurs collaborateurs peuvent fournir des données et recevoir des résultats. Par exemple, si vous souhaitez que le résultat de la requête soit envoyé à différents membres, vous pouvez désigner un membre comme lanceur de requêtes qui peut écrire des requêtes et d’autres membres comme destinataires des résultats de requête qui peuvent recevoir les résultats. Cela permet au créateur de la collaboration de s’assurer que plusieurs membres reçoivent les résultats de l’analyse et que le membre qui peut effectuer la requête n’a pas accès aux résultats de la requête. Avec l’analyse SQL, plusieurs collaborateurs peuvent fournir des données, mais un seul collaborateur peut exécuter des requêtes SQL et un seul peut recevoir les résultats. Par exemple, si vous souhaitez que le résultat de la requête soit envoyé à un autre membre, vous pouvez désigner un membre comme exécuteur de la requête (c’est lui qui écrit les requêtes) et un autre membre comme destinataire des résultats de la requête (c’est lui qui reçoit les résultats). Cela permet au créateur de la collaboration de s’assurer que le membre qui peut effectuer une requête n’a pas accès aux résultats de la requête.
Avec l’analyse PySpark, plusieurs collaborateurs peuvent fournir des données, mais un seul collaborateur peut exécuter des tâches et seul l’exécuteur de la tâche peut recevoir les résultats.
Avec AWS Clean Rooms ML, un collaborateur apporte l’exemple du jeu d’enregistrements sur la base duquel il souhaite trouver des segments similaires auprès de son partenaire, l’autre participant possède la part la plus importante à partir de laquelle nous générons des segments similaires en fonction de leur similarité avec les exemples d’enregistrements. AWS Clean Rooms ML enverra les segments similaires en sortie vers une destination spécifiée par le participant qui représente la plus grande part à partir de laquelle nous dérivons les segments similaires.
AWS Entity Resolution est intégré de manière native à AWS Clean Rooms. Vous pouvez utiliser la mise en correspondance basée sur des règles ou des fournisseurs de services de données pour préparer, faire correspondre et relier vos données utilisateur aux données de votre partenaire à l’aide de n’importe quelle clé commune que vous choisissez d’utiliser (comme des identifiants pseudonymisés), dans le cadre d’une collaboration AWS Clean Rooms dont la confidentialité est renforcée. Pour appliquer les fonctionnalités de correspondance d’AWS Entity Resolution à une collaboration, vous devez utiliser les données stockées dans Amazon S3.
AWS Clean Rooms est disponible dans les régions suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Séoul), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Europe (Francfort), Europe (Irlande), Europe (Londres) et Europe (Stockholm).
Avec AWS Clean Rooms, vous pouvez utiliser des outils d’analyse flexibles et un machine learning qui renforce la confidentialité pour répondre aux besoins de votre entreprise. Lorsque vous utilisez l’analyse SQL, Spark SQL ou PySpark, vous pouvez choisir de manière flexible quel collaborateur paie pour la capacité de calcul des requêtes SQL ou des tâches exécutées en collaboration, dans une unité de traitement des salles blanches (CRPU), des heures par seconde (avec un coût minimum de 60 secondes). Lorsque vous utilisez AWS Clean Rooms ML, vous ne payez que pour les entraînements des modèles que vous demandez et pour les segments similaires créés, sur la base d’un prix pour 1 000 profils. Pour plus d'informations, consultez Tarification d’AWS Clean Rooms.
Avec AWS Entity Resolution sur AWS Clean Rooms, vous pouvez utiliser une mise en correspondance basée sur des règles ou basée sur les fournisseurs de services de données en tirant parti des jeux de données des fournisseurs (tels que LiveRamp).
Lorsque vous utilisez la mise en correspondance paramétrable, au moins un participant d’une collaboration est tenu de préparer ses données avant de les associer aux jeux de données de ses partenaires, sauf s’il a déjà préparé ses données à l’aide d’AWS Entity Resolution avant de créer ou de rejoindre la collaboration. Ce participant paiera pour la préparation des données uniquement si elles sont utilisées. Tout membre participant à une collaboration peut payer pour la mise en correspondance des données. La mise en correspondance des données nécessite également un paiement unique par collaboration, et ce paiement est attribué à tout participant qui paie pour la mise en correspondance des données.
Lorsque vous utilisez la mise en correspondance basée sur les fournisseurs de services de données, tous les participants de la collaboration doivent disposer d’un abonnement de fournisseur afin de préparer leurs données à l’aide d’identifiants de fournisseur. Tous les participants de la collaboration sont tenus de préparer leurs données à l’aide des identifiants des fournisseurs avant de les mettre en correspondance avec les jeux de données de leurs partenaires, sauf s’ils ont déjà préparé leurs données à l’aide d’AWS Entity Resolution avant de créer ou de rejoindre la collaboration. Tout participant à une collaboration peut payer pour la mise en correspondance des données en utilisant les identifiants des fournisseurs. De plus, le participant qui paie pour la mise en correspondance des données doit disposer d’un abonnement fournisseur. Vous pouvez utiliser les abonnements publics répertoriés sur AWS Data Exchange (ADX) ou acheter un abonnement privé directement auprès du fournisseur de services de données de votre choix, puis utiliser Bring Your Own Subscription (BYOS) vers ADX.
Pour plus d’informations, consultez AWS Entity Resolution sur la tarification d’AWS Clean Rooms.
Sécurité et protection des données
Ouvrir toutLa protection des données commence par la base de sécurité d'AWS, et AWS Clean Rooms repose sur les services de sécurité AWS, notamment AWS Identity and Access Management (IAM), AWS Key Management Service (KMS) et AWS CloudTrail. Cela vous permet d'étendre votre stratégie de protection des données existante aux charges de travail de collaboration en matière de données. Avec AWS Clean Rooms, il n'est plus nécessaire de stocker ou de conserver une copie de vos données à l'extérieur de votre environnement AWS ni de les envoyer à un autre membre pour effectuer une analyse en vue d'obtenir des informations sur les consommateurs, des mesures marketing, des prévisions ou une évaluation des risques.
Lorsque vous configurez une collaboration AWS Clean Rooms et que vous utilisez l'analyse SQL, vous pouvez spécifier différentes options pour chaque membre de la collaboration en fonction de vos cas d'utilisation spécifiques. Par exemple, si vous souhaitez que le résultat de la requête soit envoyé à un autre membre, vous pouvez désigner un membre comme exécuteur de la requête (c'est lui qui écrit les requêtes) et un autre membre comme destinataire des résultats de la requête (c'est lui qui reçoit les résultats). Cela permet au créateur de la collaboration de s'assurer que le membre qui peut effectuer une requête n'a pas accès aux résultats de la requête.
AWS Clean Rooms propose également des contrôles de requêtes SQL qui vous permettent de limiter le type des requêtes ou les requêtes spécifiques qui peuvent être exécutées sur vos tables de données au moyen de la configuration de règles d'analyse. AWS Clean Rooms prend en charge trois types de règles d'analyse SQL : agrégation, liste et personnalisée. La règle d'analyse d'agrégation vous permet de configurer votre table de manière à n'autoriser que les requêtes qui génèrent des statistiques agrégées (comme l'attribution ou la mesure de campagnes). La règle d'analyse de liste vous permet de configurer vos contrôles de sorte que les requêtes ne puissent analyser que l'intersection entre vos jeux de données et ceux du membre autorisé à exécuter des requêtes. La règle d'analyse personnalisée vous permet de configurer des contrôles au niveau des requêtes pour autoriser l'exécution de comptes ou de requêtes spécifiques sur votre jeu de données. Lorsque vous utilisez des règles d'analyse personnalisées, vous pouvez choisir d'utiliser la confidentialité différentielle. La confidentialité différentielle d'AWS Clean Rooms vous aide à protéger la vie privée de vos utilisateurs grâce à des commandes intuitives et soutenues par des critères mathématiques en quelques clics. En tant que fonctionnalité entièrement gérée d'AWS Clean Rooms, aucune expérience préalable en matière de confidentialité différentielle n'est requise pour vous aider à empêcher la réidentification de vos utilisateurs. Les seuils d'agrégation constituent un autre moyen de contrôle, qui empêchent les requêtes d'accéder à de petits groupes potentiellement réidentifiables.
Avec AWS Clean Rooms ML, vos données ne sont utilisées que pour entraîner votre modèle et ne servent pas à entraîner des modèles AWS. AWS Clean Rooms ML n’utilise pas les données d’entraînement ou de segment similaires d’une entreprise avec d’autres, et vous pouvez supprimer votre modèle et vos données d’entraînement quand vous le souhaitez.
Non. Les jeux de données sont stockés dans les lacs de données AWS ou Snowflake des collaborateurs et ne sont pas déplacés. AWS Clean Rooms lit temporairement les données des comptes des participants pour exécuter des requêtes, faire correspondre des enregistrements, entraîner des modèles de machine learning ou développer des segments d’amorçage. Les résultats d’une analyse sont envoyés à l’emplacement S3 conçu pour l’analyse. Aucune donnée lue à partir d’un lac de données n’est stockée de façon permanente dans AWS pendant le processus de collaboration et toutes les données lues temporairement dans l’environnement AWS Clean Rooms sont supprimées à la fin de la requête.
AWS Entity Resolution sur AWS Clean Rooms génère un jeu de données qui permet de mapper les identifiants de chaque partie dans une collaboration. Le jeu de données de mappage est géré par AWS Clean Rooms. Aucun participant de la collaboration ne peut voir ou télécharger la table de mappage. Si tous les participants de la collaboration acceptent d’assouplir cette règle de confidentialité, la table de mappage pourra être consultée pour des cas d’utilisation particuliers. Chaque partie peut supprimer la table à tout moment.
Les modèles générés par AWS Clean Rooms ML sont stockés par le service, peuvent être chiffrés à l'aide d'une clé AWS KMS gérée par le client et peuvent être supprimés par le client à tout moment.
Les règles d’analyse et de chiffrement d’AWS Clean Rooms vous permettent de contrôler, avec précision, le type d’informations que vous souhaitez partager. En tant que collaborateur participant à une collaboration en matière de données, il vous revient d'évaluer les risques de chaque collaboration, notamment ceux associés à la réidentification, et de faire preuve de toute la diligence raisonnable pour garantir la conformité avec les lois en matière de confidentialité des données. Si vous partagez des données sensibles et réglementées, nous vous recommandons également d’utiliser les accords juridiques et les mécanismes d’audit appropriés pour réduire davantage les risques en matière de confidentialité.
Oui. Les conditions d’utilisation AWS interdisent certains cas d’utilisation pour les collaborations dans AWS Clean Rooms.
Oui. Le programme de conformité HIPAA AWS comprend AWS Clean Rooms en tant que service éligible HIPAA. Si vous avez signé un accord de partenariat commercial (BAA) avec AWS, vous pouvez désormais utiliser AWS Clean Rooms pour créer des collaborations conformes à la loi HIPAA. Si vous n'avez pas de BAA ou si vous avez d'autres questions sur l'utilisation d'AWS avec des applications conformes HIPAA, contactez-nous pour obtenir plus d'informations.
Pour en savoir plus, consultez les ressources suivantes :
AWS Clean Rooms ML
Ouvrir toutAWS Clean Rooms ML vous aide, ainsi que vos partenaires, à appliquer le machine learning (ML) qui améliore la confidentialité pour générer des informations prédictives sans avoir à partager des données brutes entre vous. AWS Clean Rooms ML prend en charge la modélisation de machine learning (ML) personnalisée et similaire. Grâce à la modélisation personnalisée, vous pouvez apporter un modèle personnalisé pour l’entraînement et exécuter des inférences sur des jeux de données collectifs, sans partager les données sous-jacentes ou la propriété intellectuelle entre les collaborateurs. Vous pouvez éventuellement générer des jeux de données synthétiques pour entraîner vos modèles de ML personnalisés. Avec la modélisation similaire, vous pouvez utiliser un modèle créé par AWS pour générer un ensemble étendu de profils similaires sur la base d’un petit échantillon de profils que vos partenaires apportent dans le cadre d’une collaboration.
AWS Clean Rooms ML aide les clients dans de nombreux cas d'utilisation. Par exemple, les annonceurs peuvent intégrer leur modèle et leurs données propriétaires dans une collaboration en salle blanche et inviter les diffuseurs de publication à intégrer leurs données pour former et déployer un modèle de ML personnalisé qui les aide à améliorer l’efficacité de leurs campagnes ; les institutions financières peuvent utiliser les enregistrements de transactions historiques pour créer un modèle de ML personnalisé et inviter des partenaires à participer à une collaboration Clean Rooms afin de détecter les transactions potentiellement frauduleuses ; les instituts de recherche et les réseaux hospitaliers peuvent trouver des candidats similaires aux participants existants aux essais cliniques afin d’accélérer les études cliniques ; et les marques et les diffuseurs de publication peuvent modéliser des segments similaires de clients sur le marché et proposer des expériences publicitaires très pertinentes, sans qu’aucune des entreprises ne partage ses données sous-jacentes avec l’autre.
Grâce à la modélisation personnalisée d’AWS Clean Rooms ML, vous pouvez intégrer vos propres modèles, algorithmes et données de machine learning (ML) dans le cadre d’une collaboration avec vos partenaires afin d’entraîner des modèles de ML et d’effectuer des inférences sur des jeux de données collectifs sans avoir à partager de données sensibles ou de modèles ML propriétaires. Vous pouvez éventuellement générer des jeux de données synthétiques pour entraîner vos modèles de ML personnalisés.
La modélisation personnalisée d’AWS Clean Rooms ML prend en charge l’entraînement ML et les flux de travail d’inférence ML. Pour les deux flux de travail, vous commencez par définir une requête SQL AWS Clean Rooms Spark qui est utilisée pour générer un jeu de données pour l’étape d’entraînement ou d’inférence. Le jeu de données intermédiaire est conservé dans le cadre de la collaboration en salle blanche et ne peut être utilisé que pour des tâches AWS Clean Rooms ML approuvées. La deuxième étape est l’entraînement ou l’inférence de modèle ML. Les modèles et le code ML sont regroupés dans une image de conteneur. Un modèle entraîné peut être conservé dans la collaboration et utilisé dans le cadre d’un flux de travail d’inférence ou mis à jour lors d’une tâche d’entraînement ultérieure. Avec AWS Clean Rooms ML, vos données ne sont utilisées que pour entraîner votre modèle personnalisé, et elles ne sont pas partagées entre collaborateurs ni utilisées pour l’entraînement des modèles AWS. Vous pouvez supprimer vos données de Clean Rooms ML ou supprimer un modèle personnalisé quand vous le souhaitez. Vous pouvez aussi appliquer des contrôles renforçant la confidentialité pour protéger les données sensibles que vous apportez à une collaboration. Pour appliquer la modélisation personnalisée d’AWS Clean Room ML, vous devez utiliser Spark SQL comme moteur d’analytique.
Grâce à la modélisation similaire d’AWS Clean Rooms ML, vous pouvez utiliser un modèle créé par AWS pour générer un ensemble étendu de profils similaires sur la base d’un petit échantillon de profils que vos partenaires apportent à une collaboration tout en protégeant vos données sous-jacentes et celles de votre partenaire. Vous pouvez inviter vos partenaires dans une salle blanche et appliquer le modèle ML créé par AWS, qui est entraîné de façon à ce que chaque collaboration génère des jeux de données similaires en quelques étapes, économisant ainsi des mois de travail de développement pour créer, entraîner, ajuster et déployer votre propre modèle. La modélisation similaire d’AWS Clean Rooms ML a été conçue et testée sur de nombreux jeux de données, tels que le commerce électronique et le streaming vidéo, et peut aider les clients à améliorer la précision de modélisation similaire jusqu’à 36 %, par rapport aux données de référence représentatives du secteur. Dans des applications concrètes telles que la prospection de nouveaux clients, cette amélioration de la précision peut résulter sur des économies de plusieurs millions de dollars.
La modélisation similaire d’AWS Clean Rooms ML prélève un petit échantillon d’enregistrements provenant d’une partie et trouve un jeu d’enregistrements beaucoup plus important, ou un segment similaire, à partir du jeu de données d’un autre participant. Vous pouvez spécifier la taille souhaitée du segment similaire obtenu. AWS Clean Rooms ML associera en privé les profils uniques de votre liste d'échantillons à ceux du jeu de données de votre partenaire, puis entraînera un modèle de ML qui prédit dans quelle mesure chaque profil du jeu de données de votre collaborateur est similaire à ceux de votre échantillon. AWS Clean Rooms ML regroupera automatiquement les profils similaires à la liste d'exemples et produira le segment similaire qui en résulte. AWS Clean Rooms ML élimine le besoin de partager des données pour créer, entraîner et déployer des modèles ML avec vos partenaires. Avec AWS Clean Rooms ML, vos données ne sont utilisées que pour entraîner votre modèle et ne servent pas à entraîner des modèles AWS. Vous pouvez utiliser des commandes intuitives qui vous aident, vous et vos partenaires, à ajuster les résultats prédictifs du modèle. Pour appliquer la modélisation similaire à AWS Clean Rooms ML, votre jeu de données de formation doit utiliser des données stockées dans Amazon S3. Les données de départ peuvent être stockées dans Amazon S3 ou créées à l’aide d’une requête SQL dans le cadre d’une collaboration.
Jeux de données synthétiques dans AWS Clean Rooms ML
Ouvrir toutLes données synthétiques sont des données générées par un algorithme plutôt qu’observées à partir de mesures réelles, par exemple par des technologies d’IA générative. Les jeux de données synthétiques, c’est-à-dire un ensemble de points de données créés par des algorithmes, peuvent imiter les propriétés et les modèles statistiques de données réelles tout en étant partiellement ou totalement fictifs. En utilisant des jeux de données synthétiques, les entreprises peuvent former des modèles d’IA, effectuer des analyses et développer des applications sans risquer d’exposer des informations sensibles.
Grâce à la modélisation personnalisée d’AWS Clean Rooms ML, vous et vos partenaires pouvez générer des jeux de données synthétiques statistiquement représentatifs à partir de vos données collectives pour entraîner des modèles ML de régression et de classification sans révéler d’informations sensibles provenant des données d’origine. Cette fonctionnalité permet de désidentifier les sujets, tels que les personnes ou les entités au sujet desquelles des données ont été collectées, dans les données d’origine, réduisant ainsi le risque qu’un modèle mémorise des informations sur des individus dans les données d’entraînement.
La génération de jeux de données synthétiques améliorant la confidentialité d’AWS Clean Rooms ML est optimisée pour créer des jeux de données tabulaires destinés à l’entraînement de modèles de régression et de classification. Les jeux de données ne sont pas destinés à entraîner de grands modèles de langage (LLM) ou d’autres modèles de base.
Pour créer un jeu de données synthétique, vous devez d’abord spécifier une colonne de valeur prédite dans votre jeu de données d’origine afin d’entraîner un modèle ML personnalisé. AWS Clean Rooms ML va entraîner un modèle spécialisé de renforcement de la confidentialité sur votre jeu de données afin de générer des prédictions à partir de la colonne spécifiée. Les enregistrements synthétiques sont générés en échantillonnant chacune des colonnes de valeurs non prévues à l’aide du modèle spécialisé entraîné sur vos données pour déduire la colonne finale. La génération de jeux de données synthétiques dans AWS Clean Rooms ML supprime la corrélation entre les colonnes de valeurs non prévues en injectant une quantité de bruit calibrée dans les valeurs prédites.
Non, la génération de jeux de données synthétiques AWS Clean Rooms ML ne modifie ni ne supprime les valeurs individuelles de votre jeu de données. Les lignes synthétiques sont générées par échantillonnage à partir des valeurs du jeu de données d’entrée. Toute valeur du jeu de données d’entrée peut être incluse dans le jeu de données synthétique.
Remarque : la génération de jeux de données synthétiques empêche de déduire des attributs individuels concernant des individus dans le jeu de données d’origine. Nous vous recommandons d’exclure les données d’identification personnelles (PII) pour empêcher que les valeurs littérales du jeu de données d’origine n’apparaissent dans le jeu de données synthétique. Les identifiants directs, tels que l’e-mail, le téléphone, le numéro d’identification national ou l’adresse, ne doivent pas être inclus dans le jeu de données d’origine. Ils peuvent être utilisées comme clés de jointure dans la requête générant le canal d’entrée ML mais ne doivent pas être inclus dans le modèle d’analyse utilisé pour la génération de jeux de données synthétiques. Consultez la documentation pour plus d’informations.
Vous pouvez commencer par créer une collaboration AWS Clean Rooms avec vos partenaires et définir votre algorithme de modèle et vos jeux de données. Vous créez ensuite une requête SQL qui spécifie à la fois les données à synthétiser et les contrôles de confidentialité essentiels, notamment les niveaux de bruit pour empêcher la ré-identification des utilisateurs et les protections contre les menaces de sécurité courantes. Une fois que tous les propriétaires de données ont approuvé cette configuration, le processus de génération de données synthétiques commence. Avant d’utiliser les données synthétiques, les propriétaires de modèles peuvent examiner des mesures complètes montrant à la fois la similitude statistique avec les données d’origine et la solidité des protections de la vie privée. Enfin, vous pouvez soit entraîner vos modèles personnalisés à l’aide de ces données synthétiques et exporter les poids du modèle, soit procéder directement à l’exécution de tâches d’inférence sur le modèle entraîné. Consultez la documentation pour commencer dès aujourd'hui.
PySpark
Ouvrir toutVous pouvez choisir d’utiliser le moteur d’analytique Spark pour exécuter des scripts PySpark dans le cadre de collaborations AWS Clean Rooms. PySpark propose des tailles de calcul configurables afin de mieux contrôler les performances en termes de prix lors de l’exécution de charges de travail PySpark.
Les tâches PySpark dans AWS Clean Rooms utilisent le type d’instance par défaut CR.1X, qui fournit 4 processeurs virtuels, 30 Go de mémoire et 100 Go de stockage. Vous pouvez choisir d’allouer davantage de ressources à l’exécution de vos charges de travail PySpark en sélectionnant le type d’instance CR.4X plus grand, qui fournit 16 vCPU, 120 Go de mémoire et 400 Go de stockage. Des instances de plus grande taille peuvent bénéficier aux charges de travail PySpark qui traitent de grands volumes de données et effectuent des analytiques complexes, ce qui permet de répartir les charges de travail sur un plus grand nombre de ressources. Pour en savoir plus sur le vCPU, la mémoire et le stockage associés à chaque configuration, cliquez ici.
Vous avez la possibilité d’intégrer des scripts Python, et vous pouvez éventuellement fournir vos propres bibliothèques personnalisées ou open source en Python.
Lorsque vous utilisez PySpark dans AWS Clean Rooms, une tarification distincte s’applique. Pour en savoir plus sur la tarification de PySpark, consultez la tarification d’AWS Clean Rooms.
Analyses SQL
Ouvrir toutVous pouvez choisir d’utiliser le moteur d’analytique Spark pour exécuter des requêtes à l’aide du dialecte Spark SQL dans les collaborations AWS Clean Rooms. AWS Clean Rooms SQL propose des tailles de calcul configurables afin de mieux contrôler les performances en termes de prix lors de l’exécution de charges de travail SQL.
AWS Clean Rooms SQL utilise le type d’instance par défaut CR.1X, qui fournit 4 vCPU, 30 Go de mémoire et 100 Go de stockage. Vous pouvez choisir d’allouer davantage de ressources à l’exécution de vos charges de travail Spark SQL en sélectionnant le type d’instance CR.4X plus volumineux, qui fournit 16 processeurs virtuels, 120 Go de mémoire et 400 Go de stockage. Des instances de plus grande taille peuvent bénéficier aux charges de travail SQL qui traitent de grands volumes de données et effectuent des analytiques complexes, ce qui permet de répartir les charges de travail sur un plus grand nombre de ressources. Pour en savoir plus sur le vCPU, la mémoire et le stockage associés à chaque configuration, cliquez ici.
Dans les règles d’analyse d’agrégation, vous configurez des contrôles au niveau des colonnes qui vous aident à définir comment chaque colonne peut être utilisée dans les requêtes. Vous pouvez, par exemple, spécifier les colonnes qui peuvent être utilisées pour calculer des statistiques agrégées, comme SUM(price), et celles qui peuvent l’être pour joindre votre table à d’autres membres de la collaboration. Dans la règle d’analyse d’agrégation, vous pouvez également définir un seuil minimal d’agrégation que doit respecter chaque ligne de sortie. Les lignes qui ne respectent pas ce seuil minimal sont automatiquement exclues par AWS Clean Rooms.
Oui. Vous aurez la possibilité de configurer AWS Clean Rooms pour qu’il publie des journaux de requêtes dans Amazon CloudWatch Logs. Avec la règle d’analyse personnalisée, vous pouvez également consulter les requêtes (stockées dans les modèles d’analyse) avant qu’elles ne soient exécutées dans le cadre de la collaboration.
Confidentialité différentielle AWS Clean Rooms
Ouvrir toutLa confidentialité différentielle est un cadre mathématiquement approuvé qui contribue à la protection de la confidentialité des données. Le principal avantage de la confidentialité différentielle est de permettre la protection des données au niveau individuel en ajoutant une quantité contrôlée de caractère aléatoire (bruit) afin de masquer la présence ou l’absence d’un individu dans un jeu de données en cours d’analyse.
En quelques étapes seulement, la confidentialité différentielle AWS Clean Rooms vous permet de protéger la vie privée de vos utilisateurs grâce à des commandes intuitives basées sur des critères mathématiques. En tant que fonctionnalité entièrement gérée d’AWS Clean Rooms, aucune expérience préalable en matière de confidentialité différentielle n’est requise pour empêcher la ré-identification de vos utilisateurs. La confidentialité différentielle AWS Clean Rooms masque la contribution des données de tout individu en générant des informations agrégées dans le cadre de collaborations, afin que vous puissiez exécuter un large éventail de requêtes SQL pour générer des informations sur les campagnes publicitaires, les décisions d’investissement, les recherches cliniques, etc.
Vous pouvez commencer à utiliser la confidentialité différentielle AWS Clean Rooms en quelques étapes seulement après avoir démarré ou rejoint une collaboration AWS Clean Rooms en tant que membre habilité à fournir des données. Après avoir créé une table configurée, qui fait référence à votre table dans le catalogue de données AWS Glue, il vous suffit de choisir d’activer la confidentialité différentielle tout en ajoutant une règle d’analyse personnalisée à cette table configurée. Ensuite, vous associez la table configurée à votre collaboration AWS Clean Rooms et vous configurez une politique de confidentialité différentielle dans la collaboration afin de rendre votre table disponible pour des requêtes. Vous pouvez utiliser une politique par défaut pour terminer rapidement la configuration ou la personnaliser en fonction de vos besoins spécifiques. Pour appliquer la confidentialité différentielle AWS Clean Rooms dans le cadre d’une collaboration, vous devez utiliser les données stockées dans Amazon S3.
Une fois que la confidentialité différentielle AWS Clean Rooms est configurée, votre partenaire de collaboration peut commencer à exécuter des requêtes sur votre table, sans avoir besoin d’aucune expertise en matière de concepts de confidentialité différentielle ni de configuration supplémentaire de la part de ses partenaires. Avec la confidentialité différentielle AWS Clean Rooms, les exécuteurs de requêtes peuvent exécuter des analyses personnalisées et flexibles, notamment des modèles de requêtes complexes avec des expressions de table communes (CTE) et des fonctions d’agrégation couramment utilisées comme COUNT et SUM.
Cryptographie informatique
Ouvrir toutLa cryptographie informatique est une méthode destinée à protéger et chiffrer les données sensibles lorsqu’elles sont utilisées. Les données sont chiffrées au repos lorsqu'elles sont stockées, et en mouvement lorsqu'elles sont transmises et lorsqu'elles sont utilisées. Le chiffrement consiste à convertir des données en texte brut en données codées qui peuvent uniquement être déchiffrées avec une « clé » spécifique. PSI (Private Set Intersection) est un type de calcul cryptographique qui permet à plusieurs parties détenant des jeux de données de comparer des versions chiffrées afin d'effectuer le calcul. Le chiffrement s’effectue sur site avec la clé secrète partagée du collaborateur. C3R est disponible pour le moteur d’analytique Spark SQL ou le moteur d’analytique SQL.
AWS Clean Rooms inclut la cryptographie informatique pour Clean Rooms (C3R), qui permet de pré-chiffrer les données à l’aide d'un outil de chiffrement côté client, un SDK ou une interface de ligne de commande (CLI), qui utilise une clé secrète partagée avec d’autres participants à une collaboration AWS Clean Rooms. Les données sont chiffrées à mesure que les requêtes sont exécutées.