在 AWS 上识别和解决重复客户记录的指南

概览

本指南说明了如何使用 AWS Glue 机器学习（ML）转换和 AWS Lake Formation FindMatches 来协调或删除不同来源的重复客户数据。在当今的数字世界中，数据由大量不同来源生成，并以指数级速度增长。各企业都需要对所有这些数据进行摄取、清理，并利用它们来生成客户见解，这是一项艰巨的任务。本指南提供了一种基于机器学习的概率性方法，可帮助您获得完整的客户资料并提供更好的客户体验。

工作原理

这些技术细节包含一张架构图，用于说明如何有效使用本解决方案。该架构图展示了关键组件及其相互作用，并逐步概述了架构的结构和功能。

下载架构图

Well-Architected 支柱

上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构，您应该遵循尽可能多的 Well-Architected 最佳实践。

AWS Glue 与多个数据来源集成，防止低质量数据进入下游系统，确保数据质量。通过与 Lambda 和亚马逊 EventBri dge 集成，您可以设置事件驱动架构。如果任务失败，AWS Glue 会提供多次重试机会以及工作流程功能。Amazon CloudWatch 日志通过集中您可能需要排除的潜在问题，使监控任务运行时和调试变得更加容易。

阅读“卓越运营”白皮书

本指南将处理敏感数据，例如个人身份信息（PII）。因此，使用 AWS 身份和访问管理 (IAM) 授权和授予对 AWS 资源的访问权限至关重要。IAM 通过允许用户身份通过最低权限访问服务来保护资源，防止未经授权的访问。此外，AWS 密钥管理服务 (AWS KMS) 可以加密亚马逊简单存储服务 (Amazon S3) 和 Neptune 上的数据，以保护静态或传输中的数据。

阅读《安全性》白皮书

AWS G lue 和 Neptune 是无服务器的，使用多个可用区 (AZ) 以弹性方式运行。AWS Glue 支持跨 AWS 区域复制数据，您还可轻松地将用于 ETL 或机器学习的 AWS Glue 任务移植到不同的区域。AWS Glue 机器学习转换任务可以在多个区域进行训练，并使用转换任务实现高可用性。此外，Neptune 支持多可用区部署，您可在创建数据库集群时指定“多区域”。

阅读《可靠性》白皮书

典型的数据管道会对大量数据进行初始加载，然后对相对较小的数据量进行 delta 加载。AWS Glue 记录匹配支持增量匹配，在这种情况下，需要少量 worker 来处理增量数据。我们选择了 Parquet 这样一种有效的数据格式，将数据存储在 Amazon S3 上，为使用 AWS Glue 时提供了优化的存储格式。此外，使用 AWS Glue，您无需提前计划所使用的 worker 数量，您可以从少量开始，然后在需要更多计算时自动扩展。

阅读《性能效率》白皮书

适用于 ETL 的 AWS Glue 任务通过即用即付定价模式节省成本，这表示您只需为所使用的资源付费。此外，AWS Gl ue 允许您在空闲的 AWS 容量上运行工作负载，例如 AWS Glue Flex 执行选项。您可以根据工作负载的时间敏感度选择 Standard 或 Flex worker 类型。为了进一步优化成本，您可以为存储在 Amazon S3 上的数据选择正确的数据格式和压缩技术。此外，您可以从 Neptune Serverless 开始以避免容量计算，然后使用历史模式来确定适合您需求的实例大小。

阅读《成本优化》白皮书

A@@ mazon S3 和 AWS Glu e 是托管服务，可扩展以满足峰值工作负载。这有助于避免过度配置资源，减少运营过程中的浪费

阅读《可持续性》白皮书

免责声明

示例代码；软件库；命令行工具；概念验证；模板；或其他相关技术（包括由我方人员提供的任何前述项）作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议（以适用者为准）向您提供。您不应将这些 AWS 内容用在您的生产账户中，或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容，例如示例代码，以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源（例如，运行 Amazon EC2 实例或使用 Amazon S3 存储）而产生 AWS 费用。

找到今天要查找的内容了吗？

请提供您的意见，以便我们改进网页内容的质量

在 AWS 上识别和解决重复客户记录的指南

概览

工作原理

Well-Architected 支柱

免责声明

找到今天要查找的内容了吗？

了解

资源

开发人员

帮助