- Análisis›
- AWS Clean Rooms›
- Preguntas frecuentes
Preguntas frecuentes sobre AWS Clean Rooms
Aspectos generales
Abrir todoAWS Clean Rooms le facilita a usted y a sus socios el análisis y la colaboración en sus conjuntos de datos colectivos para obtener nuevas perspectivas sin relevar los datos subyacentes a los demás. Puede utilizar AWS Clean Rooms para crear sus propias salas limpias en cuestión de minutos y comenzar a analizar sus conjuntos de datos colectivos con tan solo unos pasos. Con AWS Clean Rooms, puede colaborar fácilmente con cualquier empresa de AWS y Snowflake, sin que ninguna de las partes tenga que mover, revelar o copiar sus conjuntos de datos subyacentes.
Las colaboraciones de AWS Clean Rooms son límites lógicos seguros que permiten a los miembros de la colaboración ejecutar análisis de SQL, Spark SQL y PySpark y realizar modelos de ML sin compartir datos sin procesar con sus socios. Solo las empresas que hayan sido invitadas a colaborar pueden unirse, y varios participantes pueden aportar datos a una colaboración de Clean Rooms.
Desde la Consola de administración de AWS, puede elegir el tipo de análisis que desea realizar, los socios con los que desea colaborar y los conjuntos de datos con los que desea contribuir a una colaboración. Con AWS Clean Rooms, puede realizar tres tipos de análisis: análisis de SQL, análisis de PySpark y machine learning.
AWS Clean Rooms ofrece un motor de análisis basado en Spark SQL para ejecutar consultas en una colaboración de Clean Rooms. AWS Clean Rooms Spark SQL ofrece tamaños de procesamiento configurables para brindar una mayor flexibilidad para personalizar y asignar recursos para ejecutar consultas de SQL en función de sus requisitos de rendimiento, escala y costo. Cuando ejecuta consultas SQL, AWS Clean Rooms lee los datos donde residen y aplica reglas de análisis integradas y flexibles para ayudarlo a mantener el control sobre sus datos. AWS Clean Rooms proporciona un amplio conjunto de controles de mejora de la privacidad, como controles de consultas, restricciones de salida de consultas y registro de consultas, que le permiten personalizar las restricciones de las consultas ejecutadas por cada participante de la sala limpia. La privacidad diferencial de AWS Clean Rooms lo ayuda a proteger la privacidad de sus usuarios con controles intuitivos y respaldados matemáticamente en unos pocos clics. Puede utilizar la privacidad diferencial de AWS Clean Rooms si configura los parámetros de privacidad diferencial que desee al ejecutar las consultas. Además, la computación criptográfica para salas limpias (C3R) los ayuda a mantener cifrados los datos confidenciales durante los análisis de SQL.
PySpark en AWS Clean Rooms permite que las empresas y sus socios ejecuten análisis sofisticados en grandes conjuntos de datos mediante PySpark, la API de Python para Apache Spark. Con PySpark en AWS Clean Rooms, usted y sus socios pueden incorporar el código y las bibliotecas de PySpark a una colaboración de AWS Clean Rooms y ejecutar análisis avanzados sin tener que compartir datos subyacentes o métodos de análisis patentados.
AWS Clean Rooms ML le permite a usted y a sus socios aplicar el machine learning (ML) para mejorar la privacidad y generar información predictiva sin tener que compartir datos sin procesar entre sí. AWS Clean Rooms ML admite modelos de machine learning (ML) personalizados y similares. Con el modelado personalizado, puede incorporar un modelo personalizado para el entrenamiento y ejecutar inferencias en conjuntos de datos colectivos, sin compartir los datos subyacentes o la propiedad intelectual entre los colaboradores. Con el modelado similar, puede usar un modelo creado por AWS para generar un conjunto ampliado de perfiles similares a partir de una pequeña muestra de perfiles que sus socios aportan a una colaboración. El modelado similar de AWS Clean Rooms ML, que utiliza un modelo creado por AWS, se creó y probó en una amplia variedad de conjuntos de datos, como el comercio electrónico y la transmisión de video, y puede ayudar a los clientes a mejorar la precisión del modelado similar hasta en un 36 %, en comparación con las líneas de base representativas del sector. En aplicaciones del mundo real, como la prospección de nuevos clientes, esta mejora de la precisión puede traducirse en ahorros de millones de dólares.
Mediante la Consola de administración de AWS o las operaciones de la API puede crear una colaboración de sala limpia, invitar a las empresas con las que desee colaborar y seleccionar un participante de la colaboración que pueda ejecutar los análisis dentro de la colaboración. Luego, los participantes pueden configurar reglas sobre cómo se consultar los datos estructurados y entrenar modelos de ML con sus datos. Los conjuntos de datos no se copian de las cuentas de los participantes y solo se accede a ellos cuando es necesario. Con AWS Clean Rooms, puede elegir el tipo de análisis que desea realizar: análisis de SQL, Spark SQL y PySpark, así como modelos de machine learning con AWS Clean Rooms ML. Al usar el análisis de SQL, también puede utilizar capacidades adicionales, como el generador de análisis sin código, la privacidad diferencial de AWS Clean Rooms y la computación criptográfica. Cuando use el análisis de Spark SQL, puede elegir entre varios tamaños de procesamiento configurables que brindan una mayor flexibilidad para personalizar y asignar recursos a la ejecución de consultas de SQL en función de sus requisitos de rendimiento, escala y costo. Con PySpark en AWS Clean Rooms, usted y sus socios pueden incorporar el código y las bibliotecas de PySpark a una colaboración de AWS Clean Rooms y ejecutar análisis avanzados sin tener que compartir datos subyacentes o métodos de análisis patentados. Con AWS Clean Rooms ML, puede utilizar modelos similares personalizados o creados por AWS para generar información predictiva. Una vez que los participantes de la colaboración hayan asociado los datos o los modelos a una colaboración y se hayan realizado los análisis, los resultados de la colaboración se almacenarán en un bucket designado de Amazon Simple Storage Service (Amazon S3).
En AWS Clean Rooms, se pueden usar datos de Amazon S3, Amazon Athena o Snowflake sin tener que mudar, revelar o copiar los conjuntos de datos subyacentes. AWS Clean Rooms lee los datos desde el origen en el momento en que se ejecutan las consultas, lo que evita la complejidad y el costo de replicar los conjuntos de datos en un entorno separado. Si desea obtener más información sobre la compatibilidad de AWS Clean Rooms con varias nubes y orígenes de datos, ingrese aquí.
AWS Clean Rooms admite hasta cinco participantes por colaboración.
Puede controlar quién participa en su colaboración de AWS Clean Rooms, así como crear una colaboración o unirse a una invitación para colaborar. La participación es transparente para todas las partes de una colaboración, por lo que no se podrán agregar nuevas cuentas después de crear la colaboración. Sin embargo, es posible establecer nuevas colaboraciones con diferentes clientes o socios si es necesario. Establece y administra el acceso a su contenido, así como también configura el acceso a los servicios y recursos de AWS a través de usuarios, grupos, permisos y credenciales que están bajo su control.
Los clientes pueden generar información mediante el modelado de SQL, Spark SQL, PySpark o AWS Clean Rooms ML en sus conjuntos de datos colectivos con sus socios, sin compartir ni revelar los datos subyacentes. Al configurar una colaboración de AWS Clean Rooms, puede especificar diferentes capacidades para cada miembro de la colaboración para adaptarlas a sus casos de uso específicos. Al unirse a una colaboración de AWS Clean Rooms, los colaboradores acuerdan quién realizará el análisis, quién recibirá los resultados y quién será responsable de los gastos de cálculo. Solo aquellos a quienes invite a la colaboración pueden obtener información basada en las reglas de análisis que establezca.
Con el análisis de Spark SQL, solo un colaborador puede ejecutar consultas SQL, pero varios colaboradores pueden aportar datos y recibir resultados. Por ejemplo, si desea que el resultado de la consulta vaya a miembros diferentes, puede designar a un miembro como ejecutor de consultas que puede escribirlas y a otros miembros como receptores de resultados de consultas que pueden recibirlos. Esto permite al creador de la colaboración asegurarse de que varios miembros reciben los resultados del análisis y de que el miembro que puede realizar consultas no tiene acceso a los resultados de la consulta. Con el análisis de SQL, varios colaboradores pueden aportar datos, pero solo un colaborador puede realizar consultas SQL y solo uno puede recibir los resultados. Por ejemplo, si desea que el resultado de la consulta vaya a un miembro diferente, puede designar a un miembro como ejecutor de consultas que puede escribirlas y a otro miembro como receptor de resultados de consultas que puede recibirlos. Esto permite al creador de la colaboración asegurarse de que el miembro que puede realizar consultas no tenga acceso a los resultados de la consulta.
Con el análisis de PySpark, varios colaboradores pueden aportar datos, pero solo un colaborador puede ejecutar trabajos y solo el ejecutor del trabajo puede recibir los resultados.
Con AWS Clean Rooms ML, un colaborador aporta el conjunto de registros de muestra en función del cual desea encontrar segmentos similares de su socio; la otra parte tiene la población más grande a partir de la cual generamos segmentos similares en función de su similitud con los registros de muestra. AWS Clean Rooms ML enviará los segmentos similares de salida a un destino especificado por la parte que tenga la población más grande de la que derivamos los segmentos similares.
AWS Entity Resolution está integrado de forma nativa en AWS Clean Rooms. Puede utilizar la comparación basada en reglas o en proveedores de servicios de datos para preparar, emparejar y vincular sus datos de usuario con los de su socio con cualquier clave común que elija usar (como identificadores seudonimizados) dentro de una colaboración de AWS Clean Rooms con mayor privacidad. Para aplicar las capacidades de coincidencia de AWS Entity Resolution en una colaboración, debe usar los datos almacenados en Amazon S3.
AWS Clean Rooms está disponible en el este de EE. UU. (Ohio), este de EE. UU. (Norte de Virginia) y oeste de EE. UU. (Oregón), Asia-Pacífico (Seúl), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Tokio), Europa (Fráncfort), Europa (Irlanda), Europa (Londres) y Europa (Estocolmo).
Con AWS Clean Rooms, puede utilizar herramientas de análisis flexible y ML que mejoren la privacidad para satisfacer sus necesidades empresariales. Cuando usa el análisis de SQL, Spark SQL o PySpark puede elegir de manera flexible qué colaborador paga por la capacidad de computación de las consultas SQL que se ejecutan en una colaboración, en una unidad de procesamiento de salas limpias (CRPU): horas por segundo (con un cargo mínimo de 60 segundos). Cuando utiliza AWS Clean Rooms ML, solo paga por los entrenamientos del modelo que solicite y por los segmentos similares creados, con un precio por cada 1000 perfiles. Para obtener más información, consulte los precios de AWS Clean Rooms.
Con AWS Entity Resolution en AWS Clean Rooms, puede utilizar la coincidencia basada en reglas o en el proveedor de servicios de datos para aprovechar los conjuntos de datos de los proveedores (como LiveRamp).
Cuando utiliza la coincidencia basada en reglas, al menos un miembro de una colaboración debe preparar sus datos antes de compararlos con los conjuntos de datos de sus socios, a menos que ya haya preparado sus datos con AWS Entity Resolution antes de crear la colaboración o unirse a ella. Este miembro pagará por la preparación de los datos solo si se utilizan. Cualquier miembro que participe en una colaboración puede pagar por la comparación de datos. La comparación de datos también requiere una tarifa única por colaboración; esta tarifa se asigna a cualquier colaborador que pague por la comparación de datos.
Cuando utiliza la comparación basada en el proveedor de servicios de datos, todos los miembros de la colaboración deben tener una suscripción de proveedor para preparar sus datos con los ID de proveedor. Todos los miembros de la colaboración deben preparar sus datos con los ID de proveedor antes de compararlos con los conjuntos de datos de sus socios, a menos que ya hayan preparado sus datos con AWS Entity Resolution antes de crear la colaboración o unirse a ella. Cualquier miembro que participe en una colaboración puede pagar la comparación de datos con las identificaciones de los proveedores. Además, el miembro que paga por la comparación de datos debe tener una suscripción de proveedor. Puede utilizar las suscripciones públicas que figuran en AWS Data Exchange (ADX) o comprar una suscripción privada directamente en el proveedor de servicios de datos de su elección y, a continuación, utilizar la característica Traiga su propia suscripción (BYOS) en ADX.
Para más información, consulte los precios de AWS Entity Resolution en AWS Clean Rooms.
Seguridad y protección de datos
Abrir todoLa protección de datos comienza con la base de seguridad de AWS, y AWS Clean Rooms se basa en los servicios de seguridad de AWS, incluidos AWS Identity and Access Management (IAM), AWS Key Management Service (KMS) y AWS CloudTrail. Esto le permite extender su estrategia de protección de datos actual a las cargas de trabajo de colaboración de datos. Gracias a AWS Clean Rooms, ya no tendrá que almacenar los datos ni mantener una copia fuera del entorno de AWS, ni enviarlos a terceros para realizar análisis con el fin de obtener información sobre los consumidores, realizar mediciones de marketing, hacer previsiones o evaluar riesgos.
Al configurar una colaboración de AWS Clean Rooms y utilizar el análisis de SQL, puede especificar diferentes capacidades para cada miembro de la colaboración para que se adapten a sus casos de uso específicos. Por ejemplo, si desea que el resultado de la consulta vaya a otro miembro, puede designar a un miembro como el ejecutor de la consulta que puede escribirlas y a otro miembro como el receptor de los resultados de la consulta que puede recibirlos. Esto permite al creador de la colaboración asegurarse de que el miembro que puede realizar consultas no tenga acceso a los resultados de la consulta.
Con AWS Clean Rooms puede proteger los datos, pues le permite restringir el tipo de consultas o consultas específicas que se pueden ejecutar en sus tablas de datos mediante la configuración de reglas de análisis. AWS Clean Rooms admite tres tipos de reglas de análisis: agregación, lista y personalizadas. Las reglas de análisis de agregación sirven para configurar la tabla de manera que solo se permitan las consultas que generen estadísticas agregadas (como la atribución o la medición de campañas). Las reglas de análisis de lista permiten configurar los controles de manera que las consultas únicamente puedan analizar el punto de intersección de sus conjuntos de datos con los de los miembros que pueden realizar consultas. Con la regla de análisis personalizada, puede configurar los controles a nivel de consulta para permitir que se ejecuten cuentas o consultas específicas en su conjunto de datos. Al utilizar reglas de análisis personalizadas, puede optar por utilizar la privacidad diferencial. La privacidad diferencial de AWS Clean Rooms lo ayuda a proteger la privacidad de sus usuarios con controles intuitivos y respaldados matemáticamente en unos pocos clics. Al ser una capacidad totalmente gestionada de AWS Clean Rooms, no se necesita experiencia previa en privacidad diferencial para ayudarlo a evitar la reidentificación de sus usuarios. Otro control son los umbrales de agregación, que impiden que las consultas se extraigan en grupos pequeños que podrían volver a identificarse.
Con AWS Clean Rooms ML, sus datos solo se utilizan para entrenar su modelo y no para el entrenamiento de modelos de AWS. AWS Clean Rooms ML no utiliza los datos de segmentos de capacitación o similares de ninguna empresa con otra y puede eliminar sus datos de modelo y capacitación cuando lo desee.
No. Los conjuntos de datos se almacenan en los lagos de datos de AWS o Snowflake de los colaboradores y no se mueven. AWS Clean Rooms lee temporalmente los datos de las cuentas de los colaboradores para ejecutar consultas, emparejar registros, entrenar modelos de machine learning o ampliar los segmentos iniciales. Los resultados de un análisis se envían a la ubicación S3 diseñada para el análisis. Los datos leídos de ningún lago de datos se almacenan permanentemente en AWS durante el proceso de colaboración y todos los datos leídos temporalmente en el entorno de AWS Clean Rooms se eliminan al completar la consulta.
AWS Entity Resolution e AWS Clean Rooms genera un conjunto de datos que asigna los identificadores de todas las partes en una colaboración. AWS Clean Rooms administra el conjunto de datos de asignación. Ningún miembro de la colaboración puede ver o descargar la tabla de asignación. Si todos los miembros de la colaboración están de acuerdo en flexibilizar esta medida de privacidad, pueden consultar la tabla de asignación para casos de uso particulares. Cualquiera de las partes puede eliminar la tabla en cualquier momento.
El servicio almacena los modelos generados por AWS Clean Rooms ML, se pueden cifrar con una clave de AWS KMS administrada por el cliente y el cliente puede eliminarlos en cualquier momento.
Las reglas de análisis y cifrado de AWS Clean Rooms permiten ejercer un control preciso sobre el tipo de información que se desea compartir. Como colaborador de datos, es responsable de evaluar el riesgo que conlleva cada colaboración, incluido el riesgo de reidentificación, y de llevar a cabo una diligencia debida adicional para garantizar que se cumple con todas las leyes en materia de privacidad de datos. Si los datos que comparte son confidenciales o están sujetos a regulaciones, recomendamos que también utilice acuerdos legales y mecanismos de auditoría apropiados para reducir aún más los riesgos de privacidad.
Sí. Los Términos de servicio de AWS prohíben determinados casos de uso para colaboraciones en AWS Clean Rooms.
Sí, el programa de AWS de conformidad con la HIPAA incluye AWS Clean Rooms como un servicio que cumple con los requisitos de la HIPAA. Si ha firmado un acuerdo de asociación empresarial (BAA) con AWS, ahora puede utilizar AWS Clean Rooms para crear colaboraciones que cumplan con la HIPAA. Si no tiene un BAA o si tiene otras preguntas acerca del uso de AWS en sus aplicaciones en conformidad con la HIPAA, póngase en contacto con nosotros para obtener más información.
Para obtener más información, consulte los siguientes recursos:
La página Conformidad con HIPAA de AWS
La página Computación en la nube de AWS en el sector de la sanidad
AWS Clean Rooms ML
Abrir todoAWS Clean Rooms ML le permite a usted y a sus socios aplicar machine learning (ML) para mejorar la privacidad y generar información predictiva sin tener que compartir datos sin procesar entre sí. AWS Clean Rooms ML admite modelos de machine learning (ML) personalizados y similares. Con el modelado personalizado, puede incorporar un modelo personalizado para el entrenamiento y ejecutar inferencias en conjuntos de datos colectivos, sin compartir los datos subyacentes o la propiedad intelectual entre los colaboradores. También puede generar conjuntos de datos sintéticos para entrenar sus modelos de machine learning personalizados. Con el modelado similar, puede usar un modelo creado por AWS para generar un conjunto ampliado de perfiles similares a partir de una pequeña muestra de perfiles que sus socios aportan a una colaboración.
AWS Clean Rooms ML ayuda a los clientes con varios casos de uso. Por ejemplo, los anunciantes pueden incorporar su modelo y sus datos propios a una colaboración de Clean Rooms e invitar a los editores a unir sus datos para entrenar e implementar un modelo de machine learning personalizado que les ayude a aumentar la eficacia de la campaña; las instituciones financieras pueden utilizar los registros históricos de transacciones para entrenar un modelo de aprendizaje automático personalizado e invitar a los socios a una colaboración de Clean Rooms para detectar posibles transacciones fraudulentas; las instituciones de investigación y las redes hospitalarias pueden encontrar candidatos similares a los participantes de los ensayos clínicos actuales para ayudar a acelerar los ensayos clínicos estudios; y las marcas y los editores pueden modelar segmentos similares de clientes del mercado y ofrecer experiencias publicitarias muy relevantes, sin que ninguna de las empresas comparta sus datos subyacentes con la otra.
Con el modelado personalizado de AWS Clean Rooms ML, puede combinar sus propios modelos, algoritmos y datos de machine learning (ML) con sus socios para entrenar modelos de machine learning y ejecutar inferencias en conjuntos de datos colectivos sin tener que compartir datos confidenciales o modelos de ML patentados. También puede generar conjuntos de datos sintéticos para entrenar sus modelos de machine learning personalizados.
El modelado personalizado de AWS Clean Rooms ML admite los flujos de trabajo de inferencia de ML y entrenamiento de ML. Para ambos flujos de trabajo, comience por definir una consulta SQL de AWS Clean Rooms Spark que se utiliza para generar un conjunto de datos para el paso de entrenamiento o inferencia. El conjunto de datos intermedio se mantiene dentro de la colaboración de sala limpia y solo se puede usar para tareas aprobadas de AWS Clean Rooms ML. El segundo paso es el entrenamiento o la inferencia del modelo de ML. Los modelos y el código de ML se empaquetan en una imagen de contenedor. Un modelo entrenado puede retenerse en la colaboración y usarse como parte de un flujo de trabajo de inferencia o actualizarse en un trabajo de entrenamiento posterior. Con AWS Clean Rooms ML, sus datos solo se utilizan para entrenar su modelo personalizado y no se comparten entre colaboradores ni se utilizan para el entrenamiento de modelos de AWS. Puede eliminar sus datos de Clean Rooms ML o eliminar un modelo personalizado cuando lo desee, y puede aplicar controles que mejoren la privacidad para proteger los datos confidenciales que aporta a una colaboración. Para aplicar el modelado personalizado de AWS Clean Rooms ML, debe usar Spark SQL como motor de análisis.
Con el modelado similar a AWS Clean Rooms ML, puede usar un modelo creado por AWS para generar un conjunto ampliado de perfiles similares a partir de una pequeña muestra de perfiles que sus socios aportan a una colaboración y, al mismo tiempo, protegen sus datos subyacentes y los de su socio. Puede invitar a sus socios a una sala limpia y aplicar el modelo de ML creado por AWS, que se alimente de cada colaboración para generar conjuntos de datos similares en unos pocos pasos, lo que ahorra meses de trabajo de desarrollo para crear, entrenar, ajustar e implementar su propio modelo. El modelado similar de AWS Clean Rooms ML se creó y probó en varios conjuntos de datos, como el comercio electrónico y la transmisión de video, y puede ayudar a sus clientes a mejorar la precisión de los modelos similares en hasta un 36 %, en comparación con las bases de referencia representativas del sector. En aplicaciones del mundo real, como la prospección de nuevos clientes, esta mejora de la precisión puede traducirse en ahorros de millones de dólares.
El modelado similar de AWS Clean Rooms ML toma una pequeña muestra de registros de una parte y encuentra un conjunto de registros mucho más grande o un segmento similar del conjunto de datos de otro colaborador. Puede especificar el tamaño deseado del segmento similar resultante y AWS Clean Rooms ML comparará de forma privada los perfiles únicos de su lista de muestra con los del conjunto de datos de su socio y, a continuación, entrenará un modelo de ML que prediga la similitud de cada perfil del conjunto de datos de su colaborador con los de su muestra. AWS Clean Rooms ML agrupará automáticamente los perfiles que sean similares a la lista de muestras y generará el segmento similar resultante. AWS Clean Rooms ML elimina la necesidad de compartir datos para crear, entrenar e implementar modelos de ML con sus socios. Con AWS Clean Rooms ML, sus datos solo se utilizan para entrenar su modelo y no para el entrenamiento del modelo de AWS. Puede utilizar controles intuitivos que los ayudan a usted y a sus socios a ajustar los resultados predictivos del modelo. Para aplicar el modelado similar a AWS Clean Rooms ML, su conjunto de datos de entrenamiento debe usar datos almacenados en Amazon S3. Los datos iniciales pueden almacenarse en Amazon S3 o crearse mediante una consulta SQL en una colaboración.
Conjuntos de datos sintéticos en AWS Clean Rooms ML
Abrir todoLos datos sintéticos son datos generados por un algoritmo en lugar de ser observados a partir de mediciones del mundo real, por ejemplo, mediante tecnologías de IA generativa. Los conjuntos de datos sintéticos (una colección de puntos de datos creados de manera algorítmica) pueden imitar las propiedades y los patrones estadísticos de los datos reales y, al mismo tiempo, ser parcial o totalmente ficticios. Mediante el uso de conjuntos de datos sintéticos, las empresas pueden entrenar modelos de IA, realizar análisis y desarrollar aplicaciones sin correr el riesgo de que la información confidencial quede expuesta.
Con el modelado personalizado de AWS Clean Rooms ML, usted y sus socios pueden generar conjuntos de datos sintéticos estadísticamente representativos a partir de sus datos colectivos para entrenar modelos de machine learning de regresión y clasificación sin revelar información confidencial de los datos originales. La capacidad anonimiza a los sujetos (como personas o entidades sobre las que se recopilaron datos) en los datos originales, lo que reduce el riesgo de que un modelo memorice información sobre las personas en los datos de entrenamiento.
La generación de conjuntos de datos sintéticos de AWS Clean Rooms ML, que mejora la privacidad, está optimizada para crear conjuntos de datos tabulares destinados al entrenamiento de modelos de regresión y clasificación. Los conjuntos de datos no están destinados a entrenar modelos de lenguaje de gran tamaño (LLM) u otros modelos fundacionales.
Para crear un conjunto de datos sintético, primero debe especificar una columna de valores pronosticados en el conjunto de datos original a fin de entrenar un modelo ML personalizado. AWS Clean Rooms ML entrenará un modelo especializado para mejorar la privacidad en su conjunto de datos y generar predicciones a partir de la columna especificada. Los registros sintéticos se generan al muestrear cada una de las columnas cuyo valor no se predice, mediante el modelo especializado entrenado con sus datos para inferir la columna final. La generación de conjuntos de datos sintéticos en AWS Clean Rooms ML elimina la correlación entre las columnas de valores no previstos al inyectar una cantidad calibrada de ruido en los valores pronosticados.
No, la generación de conjuntos de datos sintéticos de AWS Clean Rooms ML no altera ni elimina valores individuales de su conjunto de datos. Las filas sintéticas se generan al tomar muestras de los valores del conjunto de datos de entrada. Cualquier valor del conjunto de datos de entrada podría incluirse en el conjunto de datos sintético.
Nota: La generación de conjuntos de datos sintéticos protege frente a la inferencia de atributos individuales sobre los individuos incluidos en el conjunto de datos original. Le recomendamos que excluya la información de identificación personal (PII) para evitar que los valores literales del conjunto de datos original aparezcan en el conjunto de datos sintético. Los identificadores directos, como el correo electrónico, el número de teléfono, el número de identificación nacional o la dirección, no deben incluirse en el conjunto de datos original. Se pueden usar como claves de unión en la consulta que genera el canal de entrada de ML, pero no se deben incluir en la plantilla de análisis que se usa para la generación de conjuntos de datos sintéticos. Consulte la documentación para obtener más información.
Para empezar, cree primero una colaboración de AWS Clean Rooms con sus socios y defina el algoritmo y los conjuntos de datos de su modelo. A continuación, cree una consulta SQL que especifique tanto los datos que se van a sintetizar como los controles de privacidad esenciales, incluidos los niveles de ruido para evitar la reidentificación de los usuarios y las protecciones contra amenazas de seguridad comunes. Una vez que todos los propietarios de datos aprueban esta configuración, comienza el proceso de generación de datos sintéticos. Antes de utilizar los datos sintéticos, los propietarios de los modelos pueden revisar métricas exhaustivas que muestran tanto la similitud estadística con los datos originales como la solidez de las medidas de protección de la privacidad. Por último, puede entrenar sus modelos personalizados con estos datos sintéticos y exportar las ponderaciones del modelo, o proceder directamente a ejecutar trabajos de inferencia en el modelo entrenado. Consulte la documentación para comenzar hoy mismo.
PySpark
Abrir todoPuede optar por utilizar el motor de análisis de Spark para ejecutar scripts de PySpark en las colaboraciones de AWS Clean Rooms. PySpark ofrece tamaños de procesamiento configurables para proporcionar un mayor control sobre el rendimiento de precio al ejecutar cargas de trabajo de PySpark.
Los trabajos de PySpark en AWS Clean Rooms usan el tipo de instancia predeterminado CR.1X, que proporciona 4 vCPU, 30 GB de memoria y 100 GB de almacenamiento. Puede optar por asignar más recursos para ejecutar sus cargas de trabajo de PySpark al seleccionar el tipo de instancia CR.4X más grande, que proporciona 16 vCPU, 120 GB de memoria y 400 GB de almacenamiento. Los tamaños de instancia más grandes pueden beneficiar a las cargas de trabajo de PySpark que procesan grandes volúmenes de datos y realizan análisis complejos, lo que ayuda a distribuir las cargas de trabajo entre una mayor cantidad de recursos. Obtenga más información sobre vCPU, la memoria y el almacenamiento asociados a cada configuración aquí.
Tiene la flexibilidad de incorporar scripts de Python y, si lo desea, puede proporcionar sus propias bibliotecas personalizadas o de código abierto en Python.
Cuando usa PySpark en AWS Clean Rooms, se aplican precios distintos. Para obtener más información sobre los precios de PySpark, visite los precios de AWS Clean Rooms.
Análisis SQL
Abrir todoPuede optar por utilizar el motor de análisis de Spark para ejecutar consultas con el dialecto SQL de Spark en las colaboraciones de AWS Clean Rooms. AWS Clean Rooms SQL ofrece tamaños de procesamiento configurables para proporcionar un mayor control sobre el rendimiento de precio al ejecutar cargas de trabajo de SQL.
AWS Clean Rooms SQL usa el tipo de instancia predeterminado CR.1X, que proporciona 4 vCPU, 30 GB de memoria y 100 GB de almacenamiento. Puede optar por asignar más recursos para ejecutar sus cargas de trabajo de Spark SQL al seleccionar el tipo de instancia CR.4X más grande, que proporciona 16 vCPU, 120 GB de memoria y 400 GB de almacenamiento. Los tamaños de instancia más grandes pueden beneficiar a las cargas de trabajo de SQL que procesan grandes volúmenes de datos y realizan análisis complejos, lo que ayuda a distribuir las cargas de trabajo entre una mayor cantidad de recursos. Obtenga más información sobre vCPU, la memoria y el almacenamiento asociados a cada configuración aquí.
En las reglas de análisis de agregación, configura controles a nivel de columna que le ayudan a definir cómo se puede utilizar cada columna a la hora de realizar consultas. Por ejemplo, es posible especificar qué columnas se pueden utilizar para calcular estadísticas agregadas, como SUM(price), y qué columnas se pueden utilizar para unir la tabla con otros miembros de la colaboración. En las reglas de análisis de agregación, también se puede definir un umbral mínimo de agregación que debe cumplir cada fila de salida. AWS Clean Rooms excluirá automáticamente las filas que no cumplan el umbral mínimo.
Sí. Podrá configurar AWS Clean Rooms para publicar registros de consulta en Registros de Amazon CloudWatch. Con la regla de análisis personalizada, también puede revisar las consultas (almacenadas en plantillas de análisis) antes de que se ejecuten en la colaboración.
Privacidad diferencial de AWS Clean Rooms
Abrir todoLa privacidad diferencial es un marco matemáticamente probado que ayuda a la protección de la privacidad de los datos. El principal beneficio de la privacidad diferencial es que ayuda a proteger los datos a nivel individual al agregar una cantidad controlada de aleatoriedad (ruido) para ocultar la presencia o ausencia de un solo individuo en un conjunto de datos que se está analizando.
La privacidad diferencial de AWS Clean Rooms lo ayuda a proteger la privacidad de sus usuarios con controles intuitivos y respaldados matemáticamente en unos pocos pasos. Al ser una capacidad totalmente gestionada de AWS Clean Rooms, no se necesita experiencia previa en privacidad diferencial para ayudarlo a evitar la reidentificación de sus usuarios. La privacidad diferencial de AWS Clean Rooms oculta la contribución de los datos de cualquier persona a la hora de generar información agregada en las colaboraciones, de modo que puede ejecutar una amplia gama de consultas de SQL para generar información sobre campañas publicitarias, decisiones de inversión, investigaciones clínicas y más.
Puede empezar a utilizar la privacidad diferencial de AWS Clean Rooms con unos pocos pasos después de iniciar o unirse a una colaboración de AWS Clean Rooms como miembro con capacidad para aportar datos. Una vez que haya creado una tabla configurada, que es una referencia a su tabla en el catálogo de datos de AWS Glue, simplemente elija activar la privacidad diferencial y, al mismo tiempo, añadir una regla de análisis personalizada a la tabla configurada. A continuación, asocie la tabla configurada a su colaboración de AWS Clean Rooms y configure una política de privacidad diferencial en la colaboración para que la tabla esté disponible para consultas. Puede usar una política predeterminada para completar rápidamente la configuración o personalizarla para cumplir con sus requisitos específicos. Para aplicar la privacidad diferencial de AWS Clean Rooms en una colaboración, debe usar los datos almacenados en Amazon S3 y SQL como el motor de análisis.
Una vez que se haya configurado la privacidad diferencial de AWS Clean Rooms, su socio de colaboración podrá empezar a ejecutar consultas en su tabla, sin necesidad de que sus socios tengan experiencia en conceptos de privacidad diferencial ni configuraciones adicionales. Con la privacidad diferencial de AWS Clean Rooms, los ejecutores de consultas pueden ejecutar análisis personalizados y flexibles, incluidos patrones de consulta complejos con expresiones comunes de tabla (CTE) y funciones agregadas de uso común, como COUNT y SUM.
Computación criptográfica
Abrir todoLa computación criptográfica es un método para proteger y cifrar datos confidenciales mientras se utilizan. Los datos se pueden cifrar en reposo cuando se almacenan, en tránsito cuando se transmiten y cuando se utilizan. El cifrado consiste en convertir los datos que se encuentran en texto plano en datos codificados que no se pueden descifrar sin una “clave” específica. La intersección de conjuntos privados (PSI) es un tipo de computación criptográfica que permite a dos o más partes que poseen conjuntos de datos comparar versiones cifradas para realizar computaciones. El cifrado se efectúa en el entorno en las instalaciones con la clave secreta compartida del colaborador. C3R está disponible tanto para el motor de análisis SQL de Spark como para el motor de análisis de SQL.
AWS Clean Rooms incluye computación criptográfica para salas limpias (C3R), que ofrece la posibilidad de cifrar con anterioridad los datos mediante una herramienta de cifrado del cliente, ya sea un SDK o una interfaz de la línea de comandos (CLI), que utiliza una clave secreta compartida con otros participantes en una colaboración de AWS Clean Rooms. Esto cifra los datos a medida que se ejecutan las consultas.