- Análises›
- AWS Clean Rooms›
- Perguntas frequentes
Perguntas frequentes sobre o AWS Clean Rooms
Geral
Abrir tudoO AWS Clean Rooms é um novo serviço que torna mais fácil para você e seus parceiros analisar e colaborar em conjuntos de dados coletivos para obter novos insights sem revelar os dados subjacentes uns para os outros. Crie suas salas limpas em minutos e comece a analisar conjuntos de dados coletivos em apenas algumas etapas. Com o AWS Clean Rooms, você pode colaborar facilmente com qualquer empresa na AWS e no Snowflake, sem que nenhuma parte precise mover, revelar ou copiar conjuntos de dados subjacentes.
As colaborações do AWS Clean Rooms são limites lógicos seguros que permitem que os membros da colaboração executem análises do SQL, Spark SQL e PySpark e realizem modelagem de ML sem compartilhar dados brutos com seus parceiros. Somente empresas que foram convidadas para a colaboração podem participar, e vários participantes podem contribuir com dados para uma colaboração em salas limpas.
No Console de Gerenciamento da AWS, você pode escolher o tipo de análise que deseja realizar, os parceiros com os quais deseja colaborar e com quais conjuntos de dados gostaria de contribuir para uma colaboração. Com o AWS Clean Rooms, você pode realizar três tipos de análises: análises SQL, PySpark e machine learning.
O AWS Clean Rooms oferece um mecanismo de análise baseado em Spark SQL para executar consultas em uma colaboração com o Clean Rooms. O AWS Clean Rooms Spark SQL oferece tamanhos de computação configuráveis oferecendo maior flexibilidade para personalizar e alocar recursos para executar consultas SQL com base em seus requisitos de desempenho, escala e custo. Quando você executa consultas SQL, o AWS Clean Rooms lê os dados onde eles residem e aplica regras de análise integradas e flexíveis para ajudar você a manter o controle sobre seus dados. O AWS Clean Rooms fornece um amplo conjunto de controles SQL de aprimoramento da privacidade, incluindo controles de consultas, restrições de saída de consultas e log de consultas, os quais permitem personalizar restrições nas consultas executadas pelos participantes de cada sala limpa.. A privacidade diferencial do AWS Clean Rooms ajuda a proteger a privacidade dos seus usuários com controles intuitivos e baseados em matemática com apenas alguns cliques. Você pode usar a privacidade diferencial do AWS Clean Rooms configurando os parâmetros de privacidade diferencial desejados, quando executar suas consultas. Além disso, a Computação Criptográfica para salas limpas (C3R) ajuda você a manter dados confidenciais criptografados durante as análises de SQL.
O PySpark no AWS Clean Rooms permite que você e seus parceiros executem análises sofisticadas em grandes conjuntos de dados usando o PySpark, a API Python para o Apache Spark. Com o PySpark no AWS Clean Rooms, você e seus parceiros podem levar o código e as bibliotecas do PySpark para uma colaboração no AWS Clean Rooms e executar análises avançadas sem precisar compartilhar dados subjacentes ou métodos de análise proprietários.
O AWS Clean Rooms ML ajuda você e seus parceiros a aplicar machine learning (ML) de reforço à privacidade, a fim de gerar informações preditivas sem exigir o compartilhamento mútuo de dados brutos. O AWS Clean Rooms ML oferece suporte à modelagem personalizada e semelhante de machine learning (ML). Com a modelagem personalizada, é possível trazer um modelo personalizado para treinamento e executar inferências em conjuntos de dados coletivos, sem fazer o compartilhamento de dados subjacentes ou propriedade intelectual entre colaboradores. Com a modelagem semelhante, é possível usar um modelo criado pela AWS para gerar um conjunto expandido de perfis semelhantes de acordo com uma pequena amostra de perfis trazidos por seus parceiros em uma colaboração. A modelagem semelhante do AWS Clean Rooms ML, com o uso de criação de modelo da AWS, foi criada e testada em uma ampla variedade de conjuntos de dados, como comércio eletrônico e streaming de vídeo, e pode ser útil para que os clientes melhorem a precisão de modelagem semelhante em até 36% em comparação a referências representativas do setor. Em aplicações do mundo real, como a prospecção de novos clientes, essa melhoria na precisão pode se traduzir em uma economia de milhões de dólares.
Usando o Console de Gerenciamento da AWS ou as operações da API, você criará uma colaboração em uma sala limpa, convidará as empresas com as quais deseja colaborar e selecionará as habilidades que cada participante terá na colaboração. Os participantes podem então configurar regras de como os dados estruturados podem ser consultados e treinar modelos de ML em seus dados. Os conjuntos de dados não são copiados das contas dos participantes e só são acessados quando necessário. Com o AWS Clean Rooms, você pode escolher o tipo de análise que deseja realizar: análises SQL, Spark SQL e PySpark, bem como modelagem de ML usando o AWS Clean Rooms ML. Ao usar consultas SQL, você também pode utilizar recursos adicionais, como criador de análises sem código, privacidade diferencial do AWS Clean Rooms e computação criptográfica. Ao usar o Spark SQL você pode escolher tamanhos de computação configuráveis para oferecer maior flexibilidade para personalizar e alocar recursos para executar consultas SQL com base em seus requisitos de desempenho, escala e custo. Com o PySpark no AWS Clean Rooms, você e seus parceiros podem levar o código e as bibliotecas do PySpark para uma colaboração no AWS Clean Rooms e executar análises avançadas sem precisar compartilhar dados subjacentes ou métodos de análise proprietários. Com o AWS Clean Rooms ML, você pode usar modelagem personalizada ou semelhante criada pela AWS para gerar insights preditivos. Após os participantes da colaboração associarem dados ou modelos a uma colaboração e as análises serem executadas, as saídas da colaboração serão armazenadas em um bucket designado do Amazon Simple Storage Service (Amazon S3).
O AWS Clean Rooms pode usar dados do Amazon S3, Amazon Athena ou Snowflake sem precisar mover, revelar ou copiar seus conjuntos de dados subjacentes. O AWS Clean Rooms lê os dados da fonte no momento em que as consultas são executadas, evitando a complexidade e o custo de replicar conjuntos de dados em um ambiente separado. Saiba mais sobre o suporte do AWS Clean Rooms para várias nuvens e fontes de dados, clicando aqui.
O AWS Clean Rooms aceita até cinco participantes por colaboração.
Você controla quem pode participar da colaboração no AWS Clean Rooms e pode criar uma colaboração ou participar de um convite para colaborar. A participação é transparente para cada membro de uma colaboração e novas contas não poderão ser adicionadas depois que a colaboração for criada. Porém, você pode configurar novas colaborações com diferentes clientes ou parceiros, se necessário. Você estabelece e gerencia o acesso ao seu conteúdo e também o acesso a serviços e recursos da AWS por meio de usuários, grupos, permissões e credenciais sob o seu controle.
Os clientes podem gerar insights usando SQL, Spark SQL, PySpark ou modelagem do AWS Clean Rooms ML em seus conjuntos de dados coletivos com seus parceiros, sem compartilhar ou revelar os dados subjacentes. Ao configurar uma colaboração com o AWS Clean Rooms, é possível especificar habilidades diferentes para cada membro da colaboração de acordo com seus casos de uso específicos. Ao ingressar em uma colaboração do AWS Clean Rooms, os colaboradores concordam sobre qual parte executará a análise, qual parte receberá os resultados e qual parte será responsável por cobrar pelos recursos de computação. Somente os convidados para essa colaboração podem obter insights com base nas regras de análise que você estabeleceu.
Com a análise Spark SQL, somente um colaborador pode executar consultas SQL, mas vários colaboradores podem contribuir com dados e receber resultados. Por exemplo, se você quiser que o resultado da consulta vá para membros diferentes, poderá designar um membro como o executor da consulta que poderá criar consultas e outro membro como o receptor do resultado da consulta que poderá receber os resultados. Isso dá ao criador da colaboração a capacidade de garantir que vários membros recebam os resultados da análise e que o membro que pode consultar não tenha acesso aos resultados da consulta. Usando o SQL, vários colaboradores podem contribuir com dados, mas apenas um deles pode executar consultas SQL e receber os resultados. Por exemplo, se você quiser que o resultado da consulta vá para um membro diferente, poderá designar um membro como o executor da consulta que pode escrever consultas e outro membro como o receptor do resultado da consulta que pode receber os resultados. Isso garante que o criador da colaboração possa vetar que o membro que faz as consultas não tenha acesso aos resultados das consultas.
Com a análise do PySpark, vários colaboradores podem contribuir com dados, mas somente um colaborador pode executar trabalhos e somente o executor do trabalho pode receber os resultados.
Com o AWS Clean Rooms ML, um colaborador traz o conjunto de registros amostrados com base em qual for a intenção de encontrar segmentos semelhantes do parceiro; a outra parte tem a maior população, da qual geramos segmentos semelhantes, com base em sua semelhança com os registros amostrados. O AWS Clean Rooms ML enviará os segmentos semelhantes de saída para um destino especificado pela parte responsável por trazer a maior população da qual derivamos os segmentos semelhantes.
O AWS Entity Resolution é integrado de forma nativa ao AWS Clean Rooms. Você pode usar a correspondência baseada em regras ou em provedores de serviços de dados para preparar, combinar e vincular seus dados de usuário aos dados do seu parceiro usando qualquer chave comum que escolher usar (como identificadores sob pseudônimo), dentro de uma colaboração com o AWS Clean Rooms com privacidade reforçada. Para aplicar os recursos de correspondência do AWS Entity Resolution em uma colaboração, você deve usar dados armazenados no Amazon S3.
O AWS Clean Rooms está disponível nas regiões Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Ásia-Pacífico (Seul), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Europa (Frankfurt), Europa (Irlanda), Europa (Londres) e Europa (Estocolmo).
Com o AWS Clean Rooms, você pode usar ferramentas de análise flexíveis e ML de aprimoramento da privacidade para atender às necessidades da sua empresa. Ao usar a análise de SQL, Spark SQL ou PySpark, você pode escolher com flexibilidade qual colaborador pagará pela capacidade computacional das consultas SQL ou trabalhos executados em uma colaboração, em uma unidade de processamento de salas limpas (CRPU) e em horas por segundo (com uma taxa mínima de 60 segundos). Ao usar o AWS Clean Rooms ML, você paga apenas pelos treinamentos de modelo que solicitou e pelos segmentos semelhantes criados com base no preço por 1.000 perfis. Para obter mais informações, consulte os preços do AWS Clean Rooms.
Com o AWS Entity Resolution no AWS Clean Rooms, você pode usar a correspondência baseada em regras ou em provedores de serviços de dados, aproveitando conjuntos de dados de provedores (como o LiveRamp).
Quando você usa a correspondência baseada em regras, pelo menos um membro de uma colaboração precisa preparar seus dados antes da correspondência com os conjuntos de dados dos seus parceiros, a menos que eles já tenham preparado seus dados usando o AWS Entity Resolution antes de criar ou ingressar na colaboração. Esse membro pagará pela preparação dos dados somente se eles forem usados. Qualquer membro que participe de uma colaboração pode pagar pela correspondência de dados. A correspondência de dados também exige uma taxa única por colaboração, e essa taxa é atribuída a qualquer colaborador que pague pela correspondência de dados.
Quando você usa a correspondência baseada em provedor de serviços de dados, todos os membros da colaboração precisam ter uma assinatura de provedor em vigor para preparar seus dados usando IDs de provedor. Todos os membros da colaboração devem preparar seus dados usando IDs de provedor antes de correspondê-los aos conjuntos de dados de seus parceiros, a menos que já tenham preparado seus dados usando o AWS Entity Resolution antes de criar ou ingressar na colaboração. Qualquer membro que participe de uma colaboração pode pagar pela correspondência de dados usando os IDs dos provedores. Além disso, o membro que paga pela correspondência de dados precisa ter uma assinatura de provedor em vigor. É possível usar as assinaturas públicas listadas no AWS Data Exchange (ADX) ou comprar uma assinatura privada diretamente com o provedor de serviços de dados de sua escolha e, em seguida, usar o recurso Traga sua própria assinatura (BYOS) para o ADX.
Para obter mais informações, consulte os preços do AWS Entity Resolution no AWS Clean Rooms.
Segurança e proteção dos dados
Abrir tudoA proteção dos dados começa com a base de segurança da AWS, e o AWS Clean Rooms é criado com base nos serviços de segurança da AWS, incluindo o AWS Identity and Access Management (IAM), o AWS Key Management Service (KMS) e o AWS CloudTrail. Isso permite estender sua estratégia de proteção de dados existente às workloads de colaboração de dados. Com o AWS Clean Rooms, você não precisa mais armazenar ou manter uma cópia dos dados fora do ambiente da AWS e enviá-los a terceiros para realizar análises de insights do consumidor, medições de marketing, previsões ou avaliações de riscos.
Ao configurar uma colaboração do AWS Clean Rooms e usar a análise de SQL, você pode especificar habilidades diferentes para cada membro da colaboração de acordo com seus casos de uso específicos. Por exemplo, se você quiser que a saída da consulta seja direcionada para um membro diferente, defina um membro como o executor da consulta que pode escrever consultas e outro membro como o recebedor de resultados de consultas que pode apenas receber resultados. Isso permite que o criador da colaboração garanta que o membro que pode realizar a consulta não tenha acesso aos seus resultados.
O AWS Clean Rooms também oferece controles de consultas de SQL que ajudam a proteger os dados permitindo que você restrinja os tipos de consultas ou especifique as consultas que podem ser executadas em suas tabelas de dados por meio da configuração de regras de análise. O AWS Clean Rooms é compatível com três tipos de regras de análise: agregação, listas e personalizada. Com a regra de análise de agregação, é possível configurar a tabela de forma que somente consultas que gerem estatísticas agregadas sejam permitidas (como medição ou atribuição de campanha). Com a regra de análise de listas, é possível configurar controles de forma que as consultas possam analisar somente a interseção de seus conjuntos de dados com os conjuntos de dados do membro que pode realizar consultas. Com a regra de análise personalizada, é possível configurar controles em nível de consulta para permitir que contas ou consultas específicas sejam executadas em seu conjunto de dados. Ao usar regras de análise personalizadas, você pode optar por usar o Differential Privacy. O AWS Clean Rooms Differential Privacy ajuda a proteger a privacidade dos seus usuários com controles intuitivos e baseados em matemática com apenas alguns cliques. Como um recurso totalmente gerenciado do AWS Clean Rooms, nenhuma experiência anterior com privacidade diferencial é necessária para ajudar você a evitar a reidentificação de seus usuários. Outro controle são os limites de agregação, os quais evitam que as consultas sejam reduzidas a grupos pequenos e potencialmente reidentificáveis.
Com o AWS Clean Rooms ML, seus dados são usados somente para treinar seu modelo. Eles não são usados para treinar modelos da AWS. O AWS Clean Rooms ML não usa dados de treinamentos ou de segmentos semelhantes de nenhuma empresa com outra, e você pode excluir seus dados de modelo e treinamento sempre que quiser.
Não. Os conjuntos de dados são armazenados nos data lakes da AWS ou do Snowflake dos colaboradores e não são movidos. O AWS Clean Rooms lê temporariamente os dados das contas dos colaboradores para executar consultas, corresponder registros, treinar modelos de ML ou expandir segmentos iniciais. Os resultados de uma análise são enviados para o local do S3 projetado para a análise. Nenhum dado lido de qualquer data lake é armazenado permanentemente na AWS durante o processo de colaboração e todos os dados lidos temporariamente no ambiente do AWS Clean Rooms são excluídos após a conclusão da consulta.
O AWS Entity Resolution no AWS Clean Rooms gera um conjunto de dados que mapeia os identificadores de cada parte em uma colaboração. O conjunto de dados de mapeamento é gerenciado pelo AWS Clean Rooms. Nenhum membro da colaboração pode visualizar ou baixar a tabela de mapeamento. Se todos os membros da colaboração concordarem em flexibilizar essa imposição de privacidade, a tabela de mapeamento poderá ser consultada para casos de uso específicos. Qualquer uma das partes pode excluir a tabela a qualquer momento.
Os modelos gerados pelo AWS Clean Rooms ML são armazenados pelo serviço, podem ser criptografados com uma chave do AWS KMS gerenciada pelo cliente e podem ser excluídos pelo cliente a qualquer momento.
As regras de criptografia e análise do AWS Clean Rooms permitem que você tenha controle granular sobre o tipo de informação que deseja compartilhar. Como colaborador de dados, você é responsável por avaliar o risco de cada colaboração, incluindo o risco de reidentificação, e realizar sua própria diligência devida adicional para garantir a conformidade com todas as leis de privacidade de dados. Se os dados que você estiver compartilhando forem confidenciais ou regulamentados, recomendamos que também use acordos legais apropriados e mecanismos de auditoria para reduzir ainda mais os riscos à privacidade.
Sim. Os Termos de serviço da AWS proíbem determinados casos de uso para colaborações no AWS Clean Rooms.
Sim, o programa de conformidade com a HIPAA da AWS inclui o AWS Clean Rooms como um serviço qualificado pela HIPAA. Se você assinou um Business Associate Agreement (BAA – Acordo de Associado Comercial) com a AWS, agora você pode usar o AWS Clean Rooms para criar colaborações em conformidade com a HIPAA. Se você não tiver um BAA ou tiver outras dúvidas sobre o uso da AWS para aplicações em conformidade com a HIPAA, entre em contato conosco para obter mais informações.
Para saber mais, veja os recursos a seguir:
AWS Clean Rooms ML
Abrir tudoO AWS Clean Rooms ML ajuda você e seus parceiros a aplicar machine learning (ML) de reforço à privacidade, a fim de gerar informações preditivas sem exigir o compartilhamento mútuo de dados brutos. O AWS Clean Rooms ML oferece suporte à modelagem personalizada e semelhante de machine learning (ML). Com a modelagem personalizada, é possível trazer um modelo personalizado para treinamento e executar inferências em conjuntos de dados coletivos, sem fazer o compartilhamento de dados subjacentes ou propriedade intelectual entre colaboradores. Você pode gerar conjuntos de dados sintéticos para treinar os modelos de ML personalizados. Com a modelagem semelhante, é possível usar um modelo criado pela AWS para gerar um conjunto expandido de perfis semelhantes de acordo com uma pequena amostra de perfis trazidos por seus parceiros em uma colaboração.
O AWS Clean Rooms ML ajuda clientes com vários casos de uso. Por exemplo, os anunciantes podem incluir seus modelos e dados privados em uma colaboração no Clean Rooms e convidar os publicadores a agregar seus dados para treinar e implantar um modelo de ML personalizado que os ajude a aumentar a eficácia da campanha; instituições financeiras podem usar registros históricos de transações para treinar um modelo personalizado de ML e convidar parceiros para a colaboração em uma sala limpa a fim de detectar transações potencialmente fraudulentas; instituições de pesquisa e redes hospitalares podem encontrar candidatos semelhantes aos participantes de ensaios clínicos existentes para ajudar a acelerar os estudos clínicos; e marcas e publicadores podem modelar segmentos semelhantes de clientes no mercado e oferecer experiências publicitárias altamente relevantes, sem que nenhuma das empresas compartilhe os dados subjacentes com a outra.
Com a modelagem personalizada do AWS Clean Rooms ML, é possível reunir seus próprios modelos, algoritmos e dados de machine learning (ML) em colaboração com seus parceiros para treinar modelos de ML e executar inferências em conjuntos de dados coletivos sem precisar compartilhar dados confidenciais ou modelos privados de ML. Você pode gerar conjuntos de dados sintéticos para treinar os modelos de ML personalizados.
A modelagem personalizada do AWS Clean Rooms ML oferece suporte ao treinamento de ML e aos fluxos de trabalho de inferência de ML. Para os dois fluxos de trabalho, você começa definindo uma consulta Spark SQL para o AWS Clean Rooms Spark, usada para gerar um conjunto de dados na etapa de treinamento ou inferência. O conjunto de dados intermediário é mantido na colaboração da sala limpa e só pode ser usado para tarefas aprovadas pelo AWS Clean Rooms ML. A segunda etapa é o treinamento ou inferência ou treinamento de modelo de ML. Os modelos e códigos de ML são agrupados em uma imagem de contêiner. Um modelo treinado pode ser retido na colaboração e usado como parte de um fluxo de trabalho de inferência ou atualizado em uma tarefa de treinamento subsequente. Com o AWS Clean Rooms ML, seus dados são usados somente para treinar o modelo personalizado, e eles não são compartilhados entre colaboradores nem usados para treinamento de modelo da AWS. É possível remover os dados do Clean Rooms ML ou excluir um modelo personalizado, sempre que você quiser, e aplicar controles de aprimoramento de privacidade para proteger os dados confidenciais trazidos para uma colaboração. Para aplicar a modelagem personalizada do AWS Clean Rooms ML, é preciso usar o Spark SQL como mecanismo de análise.
Com a modelagem semelhante do AWS Clean Rooms ML, é possível usar um modelo criado pela AWS para gerar um conjunto expandido de perfis semelhantes de acordo com uma pequena amostra de perfis trazidos por seus parceiros para uma colaboração, enquanto seus dados e os dados subjacentes de seus parceiros permanecem protegidos. É possível convidar seus parceiros para uma sala limpa e aplicar um modelo de ML criado e pronto para uso da AWS, o qual é treinado em cada colaboração para gerar conjuntos de dados semelhantes em apenas algumas etapas, economizando, assim, meses de trabalho de desenvolvimento para criar, treinar, ajustar e implantar seu próprio modelo. A modelagem semelhante do AWS Clean Rooms ML foi criada e testada em vários conjuntos de dados, como comércio eletrônico e streaming de vídeo, e ela pode ser útil para que os clientes melhorem a precisão de modelagem semelhante em até 36% em comparação ás referências representativas do setor. Em aplicações do mundo real, como prospecção de novos clientes, essa melhoria na precisão pode se traduzir em uma economia de milhões de dólares.
A modelagem semelhante do AWS Clean Rooms ML coleta uma pequena amostra de registros de uma parte e encontra um conjunto muito maior de registros, ou segmento semelhante, do conjunto de dados de outro colaborador. Você pode especificar o tamanho desejado do segmento semelhante resultante e o AWS Clean Rooms ML combinará privadamente os perfis exclusivos da sua lista de amostras com os do conjunto de dados do seu parceiro e, em seguida, treinará um modelo de ML capaz de prever a semelhança de cada perfil no conjunto de dados do seu colaborador com os da amostra. O AWS Clean Rooms ML agrupará automaticamente os perfis semelhantes à lista de amostras e gerará o segmento semelhante resultante. O AWS Clean Rooms ML elimina a necessidade de compartilhar dados para criar, treinar e implantar modelos de ML com seus parceiros. Com o AWS Clean Rooms ML, seus dados são usados somente para treinar o seu modelo e não são usados para treinamento de modelos da AWS. Use controles intuitivos que ajudam você e seus parceiros a ajustar os resultados preditivos do modelo. Para aplicar a modelagem semelhante ao AWS Clean Rooms ML, o conjunto de dados de treinamento deve usar dados armazenados no Amazon S3. Os dados iniciais podem ser armazenados no Amazon S3 ou criados usando uma consulta SQL em uma colaboração.
Conjuntos de dados sintéticos no AWS Clean Rooms ML
Abrir tudoDados sintéticos são dados gerados por um algoritmo em vez de observados a partir de medições do mundo real, por exemplo, por tecnologias de IA generativa. Conjuntos de dados sintéticos, uma coleção de pontos de dados criados por algoritmos, podem imitar as propriedades e os padrões estatísticos de dados reais e, ao mesmo tempo, serem parcialmente ou totalmente fictícios. Ao usar conjuntos de dados sintéticos, as empresas podem treinar modelos de IA, realizar análises e desenvolver aplicações sem o risco de expor informações confidenciais.
Com a modelagem personalizada do AWS Clean Rooms ML, você e seus parceiros podem gerar conjuntos de dados sintéticos estatisticamente representativos a partir de seus dados coletivos para treinar modelos de ML de regressão e classificação, sem revelar informações confidenciais dos dados originais. O recurso desidentifica assuntos, como pessoas ou entidades sobre as quais os dados foram coletados, nos dados originais, reduzindo o risco de um modelo memorizar informações sobre indivíduos nos dados de treinamento.
A geração de conjuntos de dados sintéticos do AWS Clean Rooms ML, que melhora a privacidade, é otimizada para criar conjuntos de dados tabulares para treinar modelos de regressão e classificação. Os conjuntos de dados não se destinam a treinar grandes modelos de linguagem (LLMs) ou outros modelos básicos.
Para criar um conjunto de dados sintético, primeiro você especifica uma coluna de valor previsto em seu conjunto de dados original para treinar um modelo de ML personalizado. O AWS Clean Rooms ML treinará um modelo especializado de aprimoramento de privacidade em seu conjunto de dados para gerar previsões na coluna especificada. Os registros sintéticos são gerados pela amostragem de cada uma das colunas de valores não previstos usando o modelo especializado treinado em seus dados para inferir a coluna final. A geração de conjuntos de dados sintéticos no AWS Clean Rooms ML remove a correlação entre colunas de valores não previstos ao injetar uma quantidade calibrada de ruído nos valores previstos.
Não, a geração de conjuntos de dados sintéticos de AWS Clean Rooms ML não altera nem remove valores individuais do seu conjunto de dados. As linhas sintéticas são geradas por amostragem dos valores no conjunto de dados de entrada. Qualquer valor no conjunto de dados de entrada pode ser incluído no conjunto de dados sintético.
Nota: a geração de conjuntos de dados sintéticos protege contra a inferência de atributos individuais sobre indivíduos no conjunto de dados original. Recomendamos que você exclua as informações de identificação pessoal (PII) para evitar que valores literais do conjunto de dados original apareçam no conjunto de dados sintético. Identificadores diretos, como e-mail, telefone, número de identificação nacional ou endereço, não devem ser incluídos no conjunto de dados original. Elas podem ser usadas como chaves de junção na consulta que gera o canal de entrada de ML, mas não devem ser incluídas no modelo de análise usado para geração de conjuntos de dados sintéticos. Para obter mais informações, consulte a documentação.
Você pode começar criando primeiro uma colaboração do AWS Clean Rooms com seus parceiros e definindo seu algoritmo de modelo e conjuntos de dados. Em seguida, crie uma consulta SQL que especifique os dados a serem sintetizados e os controles essenciais de privacidade, incluindo níveis de ruído para evitar a reidentificação do usuário e as proteções contra ameaças comuns à segurança. Depois que todos os proprietários de dados aprovarem essa configuração, o processo de geração de dados sintéticos será iniciado. Antes de usar os dados sintéticos, os proprietários do modelo podem revisar métricas abrangentes que mostram a semelhança estatística com os dados originais e a força das proteções de privacidade. Por fim, você pode treinar seus modelos personalizados usando esses dados sintéticos e exportar os pesos do modelo ou prosseguir diretamente com a execução de trabalhos de inferência no modelo treinado. Consulte a documentação para começar a usar hoje mesmo.
PySpark
Abrir tudoVocê pode optar por usar o mecanismo de análise do Spark para executar scripts do PySpark nas colaborações do AWS Clean Rooms. O PySpark oferece tamanhos de computação configuráveis para fornecer mais controle sobre a relação preço-desempenho ao executar workloads do PySpark.
Os trabalhos do PySpark no AWS Clean Rooms usam o tipo de instância padrão CR.1X, que fornece 4 vCPUs, 30 GB de memória e 100 GB de armazenamento. Aloque mais recursos para executar suas workloads do PySpark selecionando o tipo de instância CR.4X maior, que fornece 16 vCPUs, 120 GB de memória e 400 GB de armazenamento. Instâncias maiores podem beneficiar workloads PySpark que processam grandes volumes de dados e realizam análises complexas, o que ajuda a distribuir as workloads em um número maior de recursos. Saiba mais sobre a vCPU, a memória e o armazenamento associados a cada configuração, clicando aqui.
Você tem a flexibilidade de trazer scripts em Python e, opcionalmente, pode fornecer suas próprias bibliotecas personalizadas ou de código aberto em Python.
Quando você usa o PySpark no AWS Clean Rooms, preços separados se aplicam. Para saber mais sobre os preços do PySpark, acesse os preços do AWS Clean Rooms.
Análises de SQL
Abrir tudoVocê pode optar por usar o mecanismo de análise do Spark para executar consultas usando o dialeto Spark SQL nas colaborações do AWS Clean Rooms. O AWS Clean Rooms SQL oferece tamanhos de computação configuráveis para fornecer mais controle sobre a relação preço-desempenho ao executar workloads SQL.
O AWS Clean Rooms SQL usa o tipo de instância padrão CR.1X, que fornece 4 vCPUs, 30 GB de memória e 100 GB de armazenamento. Você pode escolher alocar mais recursos para executar suas workloads do Spark SQL selecionando o tipo de instância CR.4X maior, que fornece 16 vCPUs, 120 GB de memória e 400 GB de armazenamento. Instâncias maiores podem beneficiar workloads SQL que processam grandes volumes de dados e realizam análises complexa, o que ajuda a distribuir as workloads em um número maior de recursos. Saiba mais sobre a vCPU, a memória e o armazenamento associados a cada configuração, clicando aqui.
Nas regras de análise, você configura controles no nível da coluna que ajudam a definir como cada coluna pode ser usada em consultas. Por exemplo, você pode especificar quais colunas podem ser usadas para calcular estatísticas agregadas (como SUM(preço) e quais colunas podem ser usadas para unir sua tabela com outros membros da colaboração. Na regra de análise de agregação, você também pode definir um limite mínimo de agregação que cada linha de saída deve atender. As linhas que não atendem ao limite mínimo são automaticamente deixadas de fora pelo AWS Clean Rooms.
Sim. Você poderá configurar o AWS Clean Rooms para publicar logs de consulta no Amazon CloudWatch Logs. Com a regra de análise personalizada, também é possível analisar as consultas (armazenadas em modelos de análise) antes que elas sejam executadas na colaboração.
Privacidade diferencial do AWS Clean Rooms
Abrir tudoA privacidade diferencial é uma estrutura matematicamente comprovada para auxiliar na proteção da privacidade de dados. O principal benefício por trás da privacidade diferencial é ajudar a proteger os dados em nível individual, adicionando uma quantidade controlada de aleatoriedade (ruído) para obscurecer a presença ou ausência de qualquer indivíduo em um conjunto de dados que estiver sendo analisado.
A Privacidade Diferencial do AWS Clean Rooms ajuda a proteger a privacidade dos seus usuários com controles intuitivos e baseados em matemática com apenas algumas etapas. Como um recurso totalmente gerenciado do AWS Clean Rooms, nenhuma experiência anterior com privacidade diferencial é necessária para ajudar você a evitar a reidentificação de seus usuários. A Privacidade Diferencial do AWS Clean Rooms ofusca a contribuição dos dados de qualquer indivíduo na geração de insights agregados em colaborações para que você possa executar uma ampla variedade de consultas SQL para gerar insights sobre campanhas publicitárias, decisões de investimentos, pesquisas clínicas e muito mais.
É possível começar a usar a privacidade diferencial do AWS Clean Rooms em apenas algumas etapas após iniciar ou ingressar em uma colaboração do AWS Clean Rooms na condição de membro com habilidades para contribuir com dados. Depois de criar uma tabela configurada, que é uma referência à sua tabela no Catálogo de Dados do AWS Glue, basta optar por ativar a privacidade diferencial e adicionar uma regra de análise personalizada à tabela configurada. Em seguida, você associa a tabela configurada à sua colaboração com o AWS Clean Rooms e configura uma política de privacidade diferencial na colaboração para disponibilizar sua tabela para consulta. É possível usar uma política padrão para concluir rapidamente a configuração ou personalizá-la para atender às suas necessidades específicas. Para aplicar a privacidade diferencial do AWS Clean Rooms em uma colaboração, use os dados armazenados no Amazon S3.
Depois que a privacidade diferencial do AWS Clean Rooms estiver configurada, seu parceiro de colaboração poderá começar a executar consultas em sua mesa, sem exigir qualquer experiência em conceitos diferenciais de privacidade ou configuração adicional de seus parceiros. Com a Privacidade Diferencial do AWS Clean Rooms, os executores de consultas podem executar análises personalizadas e flexíveis, incluindo padrões de consulta complexos com expressões de tabela comuns (CTEs) e funções agregadas comumente usadas, como COUNT e SUM.
Computação criptográfica
Abrir tudoComputação criptográfica é um método de proteger e criptografar dados confidenciais enquanto eles estão em uso. Os dados podem ser criptografados em repouso quando estão armazenados, em movimento quando são transmitidos e quando estão em uso. Criptografar significa converter dados de texto sem formatação em dados codificados que não podem ser decifrados sem uma "chave" específica. A interseção de conjuntos privados (PSI) é um tipo de computação criptográfica que permite que duas ou mais partes que possuem conjuntos de dados comparem versões criptografadas para realizar computação. A criptografia ocorre on-premises com a chave secreta compartilhada do colaborador. O C3R está disponível tanto para o mecanismo de análise do Spark SQL quanto para o mecanismo de análise do SQL.
O AWS Clean Rooms inclui computação criptográfica para Clean Rooms (C3R), que oferece a opção de pré-criptografar dados usando uma ferramenta de criptografia do lado do cliente, um SDK ou uma interface de linha de comandos (CLI), que usa uma chave secreta compartilhada com os outros participantes de uma colaboração do AWS Clean Rooms. Isso criptografa os dados enquanto as consultas são executadas.