概览
本指南演示了一种自动生成规则建议的方法,用以使用 AWS Entity Resolution 数据匹配服务中基于规则的匹配来匹配、链接和增强相关记录。其中展示了一个 AWS Glue 笔记本,该笔记本简化了创建有效匹配规则的流程。该指南从 Amazon S3 读取输入数据,执行数据质量分析,并利用 Amazon Bedrock 上强大的大型语言模型(LLM)来生成自定义的规则建议。每项建议都附有相应的理由,方便深入了解建议的规则。此外,该指南采用采样方法来测试生成的规则和解析实体。
自信地进行部署
为部署做好准备了吗? 查看 GitHub 上的示例代码,了解详细的部署说明,以根据需要按原样部署或进行自定义部署。
Well-Architected 支柱
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
AWS Glue 是一项托管服务,可运行工作负载并提供作业的监控指标。该服务具有容错能力,支持在失败时重试。AWS Glue 爬网程序可自动发现数据原理图。这些特征造就了一个可扩展、容错的系统,方便深入了解作业的运行时指标。
阅读卓越运营白皮书AWS 身份和访问管理 (IAM) 策略的范围限定为服务正常运行所需的最低权限。存储在 Amazon S3 中的数据使用了静态加密技术。这些措施可以限制对资源的未经授权访问并保护数据的完整性。通过实施严格的访问控制和加密静态数据,该指南增强了整体安全态势并有助于满足合规性要求。
阅读安全白皮书作为托管服务,AWS Glue、AWS Entity Resolution 数据匹配服务、Amazon Bedrock 和 Step Functions 减轻了维持可靠性的工作负担,使系统能够自动从故障中恢复。这些服务支持重试以从故障中恢复,并与 Amazon CloudWatch 集成以提供运营见解。
阅读可靠性白皮书AWS Glue 提供了一种无服务器架构,可根据工作负载需求扩展或缩减计算资源。它提供了不同的实例类型,用户可以根据其特定工作负载要求进行选择。AWS Glue 通过 AWS 联网服务与其他 AWS 服务连接,并可在虚拟私有云(VPC)中运行。这种资源选择和自动扩缩的灵活性有助于确保系统能够高效应对不同的工作负载强度。
阅读性能效率白皮书本指南使用遵循即用即付定价模式的托管服务,意味着您只需为使用的资源付费。AWS Glue 是无服务器的,提供了有助于优化成本的扩缩功能。AWS Entity Resolution 数据匹配服务根据摄取的数据量收费。Amazon S3 的成本取决于数据存储和访问模式。Step Functions 根据状态转换次数收费。这种基于使用情况的跨服务定价有助于确保成本与实际资源消耗紧密一致。
阅读成本优化白皮书作为一项无服务器服务,AWS Glue 仅在主动处理数据时消耗资源。该服务提供了数据分区和压缩等特征,可减少数据处理管道的存储和计算资源需求。AWS Glue 提供了基于工作负载的自动扩缩功能,有助于优化资源利用率和降低能耗。
阅读可持续发展白皮书免责声明
找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量。