- 分析›
- AWS Clean Rooms›
- 常见问题
AWS Clean Rooms 常见问题
一般性问题
什么是 AWS Clean Rooms?
AWS Clean Rooms 可以让您和您的合作伙伴更轻松地分析和协作处理集体数据集,从而获得见解,而不泄露基础数据。您可以在几分钟内创建自己的洁净室,然后只需几个步骤即可开始与您的合作伙伴分析您的集体数据集。借助 AWS Clean Rooms,您可以轻松地与已经在使用 AWS 的数十万家公司协作,而无需将数据移出 AWS 或将其加载到另一个平台。
什么是 AWS Clean Rooms 协作?
AWS Clean Rooms 协作是安全的逻辑边界,允许协作成员运行 SQL 查询和执行 ML 建模,而无需与合作伙伴共享原始数据。只有受邀加入协作的公司才能加入协作。多个参与者可以向协作提供数据,一个成员可以接收结果。只有受邀的公司才能加入 AWS Clean Rooms 协作。
AWS Clean Rooms 中提供了哪些类型的分析技术?
在 AWS 管理控制台中,您可以选择要执行的分析类型、要与之协作的合作伙伴以及想要为协作提供数据的数据集。使用 AWS Clean Rooms,您可以执行两种类型的分析:SQL 查询和机器学习。
当您运行 SQL 或 Spark SQL 查询时,AWS Clean Rooms 会在它所在的位置读取数据,并应用灵活的内置分析规则来帮助您保持对数据的控制。AWS Clean Rooms 提供了一套广泛的隐私增强 SQL 控制,包括查询控制、查询输出限制和查询日志记录,允许您自定义对每个洁净室参与者运行的查询的限制。您可以使用 Spark 分析引擎在 AWS Clean Rooms 协作中通过 Spark SQL 语言运行查询。AWS Clean Rooms Spark SQL 提供了可配置的计算大小,因此提高了灵活性,可以根据您的性能、规模和成本要求来自定义和分配资源以运行 SQL 查询。AWS Clean Rooms Spark SQL 只适用于自定义分析规则。只需单击几下,AWS Clean Rooms Differential Privacy 差异化隐私管控功能即可通过数学支持的直观控件帮助您保护用户的隐私。借助 SQL 分析引擎,您可以选择 SQL 自定义分析规则,然后配置所需的差异化隐私参数,以使用 AWS Clean Rooms Differential Privacy 差异化隐私管控功能。此外,Clean Rooms 加密计算(C3R)可以帮助您在使用 Spark 分析引擎或 SQL 分析引擎运行查询时在 SQL 分析期间始终对敏感数据进行加密。要在协作中应用 AWS Clean Rooms Differential Privacy 差异化隐私管控功能或者使用聚合或列表分析规则,您必须使用 SQL 作为分析引擎。
AWS Clean Rooms ML 可帮助您和合作伙伴应用增强隐私的机器学习(ML)来生成预测性见解,而无需彼此共享原始数据。AWS Clean Rooms ML 支持自定义和相似机器学习(ML)建模。借助自定义建模,您可以提供自定义模型以进行训练并对集体数据集进行推理,而无需在协作者之间共享基础数据或知识产权。借助相似建模,您可以使用 AWS 制作的模型,根据合作伙伴为协作提供的少量配置文件样本生成一组扩展的相似配置文件。
使用 AWS 制作的模型的 AWS Clean Rooms ML 相似建模是基于电子商务和流式传输视频等多种数据集而构建和测试的,与具有代表性的行业基准相比,它可以帮助客户将相似建模的准确性提高多达 36%。在诸如寻找新客户之类的现实应用中,提高准确性可以转化为节省数百万美元。
如何开始使用 AWS Clean Rooms?
使用 AWS 管理控制台或 API 操作,您将创建洁净室协作,邀请要与之协作的公司,并选择协作中每位参与者都拥有的能力。然后,参与者可以设置如何查询结构化数据的规则,并根据自己的数据训练 ML 模型。不会从参与者账户复制数据集,而是只能在需要时进行访问。使用 AWS Clean Rooms,您可以选择要执行的分析类型:SQL 查询和使用 AWS Clean Rooms ML 进行 ML 建模。使用 SQL 查询时,您还可以使用其他功能,例如无代码分析生成器、AWS Clean Rooms 差别隐私和加密计算。协作参与者将数据或模型关联到协作并运行分析后,协作输出将存储在指定的 Amazon Simple Storage Service(Amazon S3)存储桶中。
单一协作中可以有多少个成员?
每次协作 AWS Clean Rooms 最多支持五名参与者。
谁决定谁有权访问 AWS Clean Rooms 协作?
您可以控制谁可以参与您的 AWS Clean Rooms 协作,并可以创建协作或加入协作邀请。参与对协作中的每一方都是透明的,并且在创建协作后无法添加新帐户。但是,如果需要,您可以与不同的客户或合作伙伴建立新的协作。您可以建立和管理对内容的访问权限,还可以通过自己控制的用户、组、权限和凭证设置对 AWS 服务和资源的访问权限。
谁可以从 AWS Clean Rooms 协作中获得见解?
客户可以使用 SQL 或 AWS Clean Rooms ML 建模对其与合作伙伴的集体数据集生成见解,而无需共享或泄露基础数据。
借助 SQL,多个协作者可以提供数据,但只有一个协作者可以运行 SQL 查询,只有一个协作者可以接收结果。加入协作后,协作者就哪一方将运行查询、哪一方将收到结果以及哪一方将负责计算费用达成一致。只有您邀请参加该协作的受邀人才能根据您制定的分析规则获得见解。在设置 AWS Clean Rooms 协作时,您可以为每位协作成员指定不同的能力以适应您的特定使用案例需求。例如,如果要将查询输出发送给其他成员,则可以将一位成员指定为可以编写查询的查询运行者,将另一位成员指定为可以接收结果的查询结果接收者。这使协作创建者能够确保可以执行查询的成员无权访问查询结果。
使用 AWS Clean Rooms ML,协作者带来了记录样本集,他们希望基于此找到合作伙伴的相似分段;另一方的人口众多,我们可以根据他们与样本记录的相似度从中生成相似分段。AWS Clean Rooms ML 会将输出相似分段发送到一个目的地,该目的地由带来较大人口的一方指定,我们从中得出相似的分段。
AWS Clean Rooms 是否提供实体解析功能,以便我可以将我的数据与合作伙伴的数据进行匹配?
AWS Entity Resolution 数据匹配服务已原生集成到 AWS Clean Rooms 中。在增强隐私的 AWS Clean Rooms 协作中,您可以使用基于规则或基于数据服务提供商的匹配,使用您选择使用的任何通用密钥(例如假名标识符)来准备、匹配您的用户数据并将其与合作伙伴的数据关联起来。
AWS Clean Rooms 在哪些 AWS 区域提供?
AWS Clean Rooms 现已在以下区域推出:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)和欧洲地区(斯德哥尔摩)。
由谁承担 AWS Clean Rooms 中的协作相关费用?
借助 AWS Clean Rooms,您可以使用灵活的 SQL 分析规则和增强隐私的 ML 来满足您的业务需求。使用 SQL 分析时,您可以灵活地选择哪位协作者为协作中运行的 SQL 查询的计算容量付费,以洁净室处理单元(CRPU)小时为单位按秒计费(最低收费 60 秒)。使用 AWS Clean Rooms ML 时,您只需按每 1000 个配置文件的价格为所请求的模型训练和创建的相似分段付费。有关更多信息,请参阅 AWS Clean Rooms 定价。
在 AWS Clean Rooms 中使用 AWS Entity Resolution 数据匹配服务的费用由谁支付
借助 AWS Clean Rooms 上的 AWS Entity Resolution 数据匹配服务,您可以利用提供商数据集(例如 LiveRamp)使用基于规则或基于数据服务提供商的匹配。
使用基于规则的匹配时,协作中至少有一名成员需要在与合作伙伴的数据集进行匹配之前准备好自己的数据,除非他们在创建或加入协作之前已经使用 AWS Entity Resolution 数据匹配服务准备好数据。该成员仅在使用时才会为数据准备付费。任何参与协作的成员都可以为数据匹配付费。数据比对还需要为每次合作支付一次性费用,这笔费用分配给任何支付数据比对费用的合作者。
当您使用基于数据服务提供商的匹配时,所有协作成员都必须订阅提供商,才能使用提供商 ID 准备数据。所有合作成员在与合作伙伴的数据集进行匹配之前,都必须使用提供者 ID 准备数据,除非他们在创建或加入合作之前已经使用 AWS Entity Resolution 数据匹配服务准备了数据。任何参与合作的成员都可以使用提供方的 ID 支付数据比对费用。此外,支付数据比对费用的成员必须有提供商订阅。您可以使用 AWS Data Exchange(ADX)上列出的公共订阅,也可以直接通过所选的数据服务提供商购买私有订阅,然后使用 ADX 的自带订阅(BYOS)。
有关更多信息,请参阅 AWS Clean Rooms 定价的 AWS Entity Resolution 数据匹配服务。
AWS Clean Rooms ML
什么是 AWS Clean Rooms ML?
AWS Clean Rooms ML 可帮助您和合作伙伴应用增强隐私的机器学习(ML)来生成预测性洞察,而无需彼此共享原始数据。AWS Clean Rooms ML 支持自定义和相似机器学习(ML)建模。借助自定义建模,您可以提供自定义模型以进行训练并对集体数据集进行推理,而无需在协作者之间共享基础数据或知识产权。借助相似建模,您可以使用 AWS 制作的模型,根据合作伙伴为协作提供的少量配置文件样本生成一组扩展的相似配置文件。
AWS Clean Rooms ML 可帮助客户处理多种应用场景。例如,广告商可以提供他们的专有模型和数据进行 Clean Rooms 协作,并邀请发布者也提供他们的数据以训练和部署自定义机器学习模型,以帮助他们提高活动有效性;金融机构可以使用历史交易记录训练自定义机器学习模型,并邀请合作伙伴进行 Clean Rooms 合作以检测潜在的欺诈性交易;研究机构和医院网络可以找到与现有临床试验参与者相似的候选人,以帮助加快临床研究;品牌和发布者可以对市场中相似的客户群体进行建模,并提供高度相关的广告体验,而无需任何一家公司与他人共享基础数据。
自定义建模的工作原理是什么?
借助 AWS Clean Rooms ML 自定义建模功能,您可以提供您自己的机器学习(ML)模型、算法和数据与合作伙伴协作,以训练机器学习模型并在集体数据集上运行推理,而无需共享敏感数据或专有机器学习模型。
AWS Clean Rooms ML 自定义建模支持机器学习训练和机器学习推理工作流。对于这两个工作流,您需要首先定义一个 AWS Clean Rooms Spark SQL 查询,此查询用来为训练或推理步骤生成一个数据集。中间数据集始终处于洁净室协作内,而且只能用于经过批准的 AWS Clean Rooms ML 任务。第二步是机器学习模型训练或推理。将机器学习模型和代码打包到容器映像中。经过训练的模型可以保留在协作内,并用作推理工作流的一部分。使用 AWS Clean Rooms ML,您的数据只用来训练您的自定义模型,而不会在协作者之间共享或者用来执行 AWS 模型训练。您可以随时删除自定义模型或者从 Clean Rooms ML 中移除您的数据,还可以应用隐私增强控制措施,以保护您在协作中提供的敏感数据。要应用 AWS Clean Rooms ML 自定义建模,您必须使用 Spark SQL 作为分析引擎。
相似建模的工作原理是什么?
借助 AWS Clean Rooms ML 相似建模,您可以使用 AWS 制作的模型,根据合作伙伴为协作提供的少量配置文件样本生成一组扩展的相似配置文件,同时保护您和合作伙伴的基础数据。您可以邀请合作伙伴加入洁净室,并对每次协作应用由 AWS 制作并且经过训练的机器学习模型,只需几个步骤即可生成相似数据集,从而节省数月的开发工作,以便构建、训练、调整和部署您自己的模型。AWS Clean Rooms ML 相似建模是基于电子商务和直播视频等各种数据集构建和测试的,与具有代表性的行业基准相比,该服务可以帮助客户将相似建模的准确性提高多达 36%。在诸如寻找新客户之类的现实应用中,提高准确性可以转化为节省数百万美元。
AWS Clean Rooms ML 相似建模从一方提取少量记录样本,然后从另一位协作者的数据集中找到一组更大的记录或相似的分段。您可以指定生成的相似分段的所需大小,AWS Clean Rooms ML 会私下将您的样本列表中的唯一配置文件与合作伙伴数据集中的配置文件进行匹配,然后训练一个 ML 模型,预测协作者数据集中的每个配置文件与样本中的配置文件的相似度。AWS Clean Rooms ML 将自动对与示例列表相似的配置文件进行分组,并输出生成的相似分段。AWS Clean Rooms ML 使得无需与合作伙伴共享数据,即可构建、训练和部署 ML 模型。使用 AWS Clean Rooms ML,您的数据仅用于训练自己的模型,不用于训练 AWS 模型。您可以使用直观的控件来帮助您和合作伙伴对模型的预测结果进行调优。
安全性和数据保护
AWS Clean Rooms 如何帮助保护数据?
数据保护始于 AWS 的安全基础,而 AWS Clean Rooms 建立在 AWS 安全服务的基础之上,包括 AWS Identity and Access Management(IAM)、AWS Key Management Service(KMS)和 AWS CloudTrail。这便于您将现有的数据保护策略扩展到数据协作工作负载。借助 AWS Clean Rooms,您无需在 AWS 环境之外存储或维护数据副本并发送给另一方,即可开展使用者见解分析、营销衡量、预测或风险评估。
当您设置 AWS Clean Rooms 协作并使用 SQL 分析时,您可以为每位协作成员指定不同的能力以适应您的特定使用案例。例如,如果要将查询的输出发送给其他成员,则可以将一位成员指定为可以编写查询的查询运行者,将另一位成员指定为可以接收结果的查询结果接收者。这使协作创建者能够确保可以执行查询的成员无权访问查询结果。
AWS Clean Rooms 还配备 SQL 查询控件,允许您通过分析规则配置限制可在数据表上运行的查询类型或特定查询,从而帮助您保护数据。AWS Clean Rooms 支持三种类型的 SQL 分析规则:聚合、列表和自定义。借助聚合分析规则,您可以配置表,以便仅允许生成汇总统计信息的查询(例如活动衡量或归因)。借助列表分析规则,您可以配置控制,以便查询只能分析数据集与可查询成员的数据集的交集。使用自定义分析规则,您可以配置查询级别的控制,以允许在您的数据集中运行特定的账户或查询。使用自定义分析规则时,您可以选择使用差别隐私。只需单击几下,AWS Clean Rooms 差别隐私即可通过数学上的支持和直观控件来帮助您保护用户的隐私。作为 AWS Clean Rooms 一项完全托管的功能,无需事先获得差别隐私体验即可帮助您防止重新识别用户。另一种控制措施是聚合阈值,它可以防止查询向下钻取到可能可重新识别的小型群组。
使用 AWS Clean Rooms ML,您的数据仅用于训练您的模型,而不是用于训练 AWS 模型。AWS Clean Rooms ML 不会将任何公司的训练或相似分段数据与其他公司一起使用,您可以随时删除模型和训练数据。
我是否必须将数据存储于 AWS Clean Rooms,才能在协作中使用数据?
不需要。数据集存储在协作者的 AWS 账户中。AWS Clean Rooms 会临时从协作者账户读取数据,以运行查询、匹配记录、训练 ML 模型或扩展种子段。分析结果将发送到专为分析设计的 S3 地点。
AWS Clean Rooms 上的 AWS Entity Resolution 数据匹配服务可为您生成一个数据集,映射协作中各方的标识符。映射数据集由 AWS Clean Rooms 管理。协作中的任何成员都不能查看或下载映射表。如果合作中的所有成员都同意放宽隐私保护,就可以针对特定用例查询映射表。任何一方都可以随时删除该表。
由 AWS Clean Rooms ML 生成的模型由服务存储,可以使用客户托管的 AWS KMS 密钥进行加密,并且可以由客户随时删除。
在使用 AWS Clean Rooms 与他人协作时,如何遵守适用的数据隐私法律?
借助 AWS Clean Rooms 加密和分析规则,您可以精细控制要共享的信息类型。作为数据协作者,您有责任评测每次协作的风险,包括重新识别的风险,并进行额外的尽职调查,以确保遵守任何数据隐私法律。如果您共享的数据是敏感的或受监管的,我们建议您仍然使用适当的法律协议和审计机制,以进一步降低隐私风险。
AWS Clean Rooms 中的协作有任何使用限制吗?
符合。AWS 服务条款禁止在某些使用场景下在 AWS Clean Rooms 中进行协作。
AWS Clean Rooms 是否符合 HIPAA 要求?
是,AWS HIPAA 合规性计划将 AWS Clean Rooms 作为一项符合 HIPAA 要求的服务包含在内。如果您与 AWS 签订了商业伙伴协议 (BAA),现在可以使用 AWS Clean Rooms 建立符合 HIPAA 要求的合作。如果您未签订商业伙伴协议或者在对您的 HIPAA 合规应用程序使用 AWS 的方面有其他问题,请联系我们,以获取详细信息。
要了解更多信息,请参阅以下资源:
SQL 分析
什么是 AWS Clean Rooms Spark SQL?
您可以选择使用 Spark 分析引擎在 AWS Clean Rooms 协作中通过 Spark SQL 语言运行查询。AWS Clean Rooms Spark SQL 可提供可配置的计算大小,以便在运行 SQL 工作负载时更好地控制性价比。要在协作中应用 AWS Clean Rooms Differential Privacy 差异化隐私管控功能或者使用聚合或列表分析规则,您必须使用 SQL 作为分析引擎。
AWS Clean Rooms Spark SQL 使用默认实例类型 CR.1X,它提供了 4 个 vCPU、30 GB 内存和 100 GB 存储空间。通过选择更大的 CR.4X 实例类型,您可以分配更多资源以运行 Spark SQL 工作负载,此类型提供了 16 个 vCPU、120 GB 内存和 400 GB 存储空间。更大的实例大小能够让处理大量数据和执行复杂分析的 SQL 工作负载受益,这样有助于将工作负载分配给更多的资源。在此处详细了解每种配置的相关 vCPU、内存和存储。
如何配置 SQL 分析规则?
在 SQL 分析规则中,您可以配置列级控制,以帮助您定义如何在查询中使用每一列。例如,您可以指定哪些列可用于计算聚合统计数据 [例如 SUM(price)],以及哪些列可用于将表与其他协作成员连接起来。在聚合分析规则中,您还可以定义每个输出行必须满足的最小聚合阈值。未达到最低阈值的行将由 AWS Clean Rooms 自动筛选出。
是否可以查看协作成员正在对我的数据运行哪些查询?
符合。您将能够配置 AWS Clean Rooms 以在 Amazon CloudWatch Logs 中发布查询日志。使用自定义分析规则,您还可以在协作运行查询(存储在分析模板中)之前对其进行审查。
AWS Clean Rooms 差异化隐私
什么是差别隐私?
差别隐私是一个经过数学验证的框架,用于帮助保护数据隐私。差别隐私背后的主要好处是通过添加受控的随机性(噪声)来掩盖正在分析的数据集中存在或不存在任何单个个体,从而帮助保护个人层面的数据。
AWS Clean Rooms 差别隐私相比现有的开源实施其优势何在?
借助 AWS Clean Rooms 差别隐私,只需几个步骤即可通过数学上的支持和直观控件来帮助您保护用户的隐私。作为 AWS Clean Rooms 一项完全托管的功能,无需事先获得差别隐私体验即可帮助您防止重新识别用户。AWS Clean Rooms 差别隐私可模糊处理任何个人数据在协作中生成聚合见解的贡献,以便您可以运行广泛的 SQL 查询,以生成有关广告活动、投资决策、临床研究等领域的见解。
如何使用 AWS Clean Rooms 差别隐私?
作为具有提供数据能力的成员开始或加入 AWS Clean Rooms 协作后,您只需几个步骤即可开始使用 AWS Clean Rooms 差别隐私。创建配置的表格(该表是对您在 AWS Glue Data Catalog 中的表格的引用)之后,您只需选择在使用 SQL 分析引擎向配置的表格中添加自定义分析规则时开启差别化隐私即可。接下来,将配置的表格关联到您的 AWS Clean Rooms 协作,并在协作中配置差别隐私策略以使您的表格可供查询。您可以使用默认策略来快速完成设置,也可以对其进行自定义以满足您的特定要求。 要在协作中应用 AWS Clean Rooms Differential Privacy 差异化隐私管控功能,您必须使用 SQL 作为分析引擎。
设置 AWS Clean Rooms 差别隐私后,您与之协作的合作伙伴可以开始在您的表格上运行查询,合作伙伴无需具备任何差别隐私概念方面的专业知识或进行额外设置。借助 AWS Clean Rooms 差别隐私,查询运行者可以运行自定义和灵活的分析,包括使用常用表格表达式(CTE)以及 COUNT 和 SUM 等常用聚合函数的复杂查询模式。
加密计算
什么是加密计算?
加密计算是一种在使用敏感数据时对其进行保护和加密的方法。数据可以在存储时、传输时和使用时进行静态加密。加密意味着将纯文本数据转换为编码数据,如果没有特定的“密钥”就无法破译。 私有集交集(PSI)是一种加密计算类型,它允许持有数据集的两方或多方比较加密版本以执行计算。加密在本地使用共享协作者的密钥进行。 C3R 可用于 Spark SQL 分析引擎或 SQL 分析引擎。
什么是 Clean Rooms 加密计算(C3R)?
AWS Clean Rooms 包括 Clean Rooms 加密计算(C3R),允许使用客户端加密工具 [SDK 或命令行界面(CLI)] 预加密数据,该工具使用与 AWS Clean Rooms 协作中的其他参与者共享的密钥。这会在运行查询时加密数据。