本指南说明了如何使用 AWS Glue 机器学习(ML)转换和 AWS Lake Formation FindMatches 来协调或删除不同来源的重复客户数据。在当今的数字世界中,数据由大量不同来源生成,并以指数级速度增长。各企业都需要对所有这些数据进行摄取、清理,并利用它们来生成客户见解,这是一项艰巨的任务。本指南提供了一种基于机器学习的概率性方法,可帮助您获得完整的客户资料并提供更好的客户体验。

请注意:[免责声明]

架构图

[架构图描述]

下载架构图 PDF 

Well-Architected 支柱

当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。

上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。

  • AWS Glue 与多个数据来源集成,防止低质量数据进入下游系统,确保数据质量。通过与 LambdaAmazon EventBridge 集成,您可以建立一个事件驱动型架构。如果任务失败,AWS Glue 会提供多次重试机会以及工作流程功能。 Amazon CloudWatch Logs 将您可能需要排除故障的潜在问题都集中在一起,使监控任务运行时和调试工作变得更简单轻松。

    阅读《卓越运营》白皮书 
  • 本指南将处理敏感数据,例如个人身份信息(PII)。因此,需要使用 AWS Identity and Access Management(IAM)来授权和授予 AWS 资源的访问权限。IAM 让用户身份通过最低权限访问服务,防止未经授权的访问,从而确保资源安全。此外,AWS Key Management Service(AWS KMS)可以加密 Amazon Simple Storage Service(Amazon S3)和 Neptune 上的数据,以保护静态数据或传输中数据安全。

    阅读《安全性》白皮书 
  • AWS GlueNeptune 是无服务器服务,以弹性方式使用多个可用区(AZ)运行。AWS Glue 支持跨 AWS 区域复制数据,您还可轻松地将用于 ETL 或机器学习的 AWS Glue 任务移植到不同的区域。AWS Glue 机器学习转换任务可以在多个区域进行训练,并使用转换任务实现高可用性。此外,Neptune 支持多可用区部署,您可在创建数据库集群时指定“多区域”。

    阅读《可靠性》白皮书 
  • 典型的数据管道会对大量数据进行初始加载,然后对相对较小的数据量进行 delta 加载。AWS Glue 记录匹配支持增量匹配,在这种情况下,需要少量 worker 来处理增量数据。我们选择了 Parquet 这样一种有效的数据格式,将数据存储在 Amazon S3 上,为使用 AWS Glue 时提供了优化的存储格式。此外,使用 AWS Glue,您无需提前计划所使用的 worker 数量,您可以从少量开始,然后在需要更多计算时自动扩展。

    阅读《性能效率》白皮书 
  • 适用于 ETL 的 AWS Glue 任务通过即用即付定价模式节省成本,这表示您只需为所使用的资源付费。此外,AWS Glue 支持在备用的 AWS 容量上运行工作负载,例如 AWS Glue Flex 执行选项。您可以根据工作负载的时间敏感度选择 Standard 或 Flex worker 类型。为了进一步优化成本,您可以为存储在 Amazon S3 上的数据选择正确的数据格式和压缩技术。此外,您可以首先使用 Neptune Serverless,避免容量计算,然后使用历史模式来确定适合您需求的实例大小。

    阅读《成本优化》白皮书 
  • Amazon S3AWS Glue 是可扩展的托管服务,可满足峰值工作负载的需求。这有助于避免过度配置资源,减少运营过程中的浪费

    阅读《可持续性》白皮书 

实施资源

提供了在 AWS 账户中进行实验和使用的详细指南。构建指南的每个阶段(包括部署、使用和清理)都将被检查,以便为部署做好准备。

示例代码为起点。它经过行业验证,是规范性但不是决定性的,可以帮助您开始。

[主题]
[内容类型]

[标题]

[子标题]
此[博客文章/电子书/指南/示例代码]演示了如何 [插入简短描述]。

免责声明

示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。

本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指导是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。

此页内容对您是否有帮助?