跳至主要内容

AWS 解决方案库

  • AWS 解决方案库
  • 在 AWS 上为 Entity Resolution 数据匹配服务生成规则建议的指南

在 AWS 上为 Entity Resolution 数据匹配服务生成规则建议的指南

概览

本指南演示了一种自动生成规则建议的方法,用以使用 AWS Entity Resolution 数据匹配服务中基于规则的匹配来匹配、链接和增强相关记录。其中展示了一个 AWS Glue 笔记本,该笔记本简化了创建有效匹配规则的流程。该指南从 Amazon S3 读取输入数据,执行数据质量分析,并利用 Amazon Bedrock 上强大的大型语言模型(LLM)来生成自定义的规则建议。每项建议都附有相应的理由,方便深入了解建议的规则。此外,该指南采用采样方法来测试生成的规则和解析实体。

工作原理

概览

此架构图概述了如何使用 Amazon Bedrock 上托管的 LLM 和 AWS Glue 笔记本生成规则建议,以及如何在 AWS Entity Resolution 数据匹配服务的基于规则的匹配流程中使用这些规则。

Diagram of an AWS cloud workflow for entity resolution, showing data flow from Amazon S3 through AWS Glue, Amazon Bedrock, and AWS Step Functions for rule-based matching.

基于规则的增量工作流程

此架构图展示了如何使用 AWS Step Functions 工作流程,在 AWS Entity Resolution 数据匹配服务中运行基于规则的增量匹配流程。

Diagram of an AWS data processing workflow using EventBridge, AWS Glue, Lambda functions, and S3 buckets for pre-processing, rule-based matching, and post-processing, with outputs stored in S3 tables.

自信地进行部署

为部署做好准备了吗? 查看 GitHub 上的示例代码,了解详细的部署说明,以根据需要按原样部署或进行自定义部署。 

访问示例代码

Well-Architected 支柱

上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。

AWS Glue 是一项托管服务,可运行工作负载并提供作业的监控指标。该服务具有容错能力,支持在失败时重试。AWS Glue 爬网程序可自动发现数据原理图。这些特征造就了一个可扩展、容错的系统,方便深入了解作业的运行时指标。

阅读卓越运营白皮书

AWS 身份和访问管理 (IAM) 策略的范围限定为服务正常运行所需的最低权限。存储在 Amazon S3 中的数据使用了静态加密技术。这些措施可以限制对资源的未经授权访问并保护数据的完整性。通过实施严格的访问控制和加密静态数据,该指南增强了整体安全态势并有助于满足合规性要求。

阅读安全白皮书

作为托管服务,AWS GlueAWS Entity Resolution 数据匹配服务Amazon BedrockStep Functions 减轻了维持可靠性的工作负担,使系统能够自动从故障中恢复。这些服务支持重试以从故障中恢复,并与 Amazon CloudWatch 集成以提供运营见解。

阅读可靠性白皮书

AWS Glue 提供了一种无服务器架构,可根据工作负载需求扩展或缩减计算资源。它提供了不同的实例类型,用户可以根据其特定工作负载要求进行选择。AWS Glue 通过 AWS 联网服务与其他 AWS 服务连接,并可在虚拟私有云(VPC)中运行。这种资源选择和自动扩缩的灵活性有助于确保系统能够高效应对不同的工作负载强度。

阅读性能效率白皮书

本指南使用遵循即用即付定价模式的托管服务,意味着您只需为使用的资源付费。AWS Glue 是无服务器的,提供了有助于优化成本的扩缩功能。AWS Entity Resolution 数据匹配服务根据摄取的数据量收费。Amazon S3 的成本取决于数据存储和访问模式。Step Functions 根据状态转换次数收费。这种基于使用情况的跨服务定价有助于确保成本与实际资源消耗紧密一致。

阅读成本优化白皮书

作为一项无服务器服务,AWS Glue 仅在主动处理数据时消耗资源。该服务提供了数据分区和压缩等特征,可减少数据处理管道的存储和计算资源需求。AWS Glue 提供了基于工作负载的自动扩缩功能,有助于优化资源利用率和降低能耗。

阅读可持续发展白皮书

免责声明

示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。

找到今天要查找的内容了吗?

请提供您的意见,以便我们改进网页内容的质量。