发布于: Nov 17, 2021

AWS Glue 中的 FindMatches ML 转换功能现在包括输出匹配度得分的选项,用于指示各个记录组相互之间的相近程度。使用 FindMatches 转换,即使记录没有共同的唯一标识符且没有字段完全匹配,您也可以在数据集中确定重复记录或匹配的记录。FindMatches 可帮助自动执行复杂的数据清洗以及重复数据删除任务。

AWS Glue FindMatches 可自动识别部分匹配的使用案例记录,包括关联客户记录、产品目录去重和欺诈侦测。在 FindMatches 中使用匹配度得分可以帮助您的 FindMatches 模型,确定模型的训练是否符合您的要求,以及决定要合并哪些记录。

此功能在已推出 AWS Glue 的所有 AWS 区域开放。

要了解详情,请访问我们的文档并阅读 FindMatches 博客文章