发布于: Nov 16, 2021

AWS Glue 中的 FindMatches 机器学习转换现在可让您将新送达的数据与现有的已匹配数据集进行匹配。使用 FindMatches 转换,即使记录没有公共的唯一标识符且没有字段完全匹配,您也可以在数据集中确定重复记录或匹配记录。这样就可以更快、更轻松地清理和删除重复数据集。

AWS Glue FindMatches 可自动识别使用案例的部分匹配记录,包括链接客户记录、去重产品目录和欺诈侦测。在 FindMatches 中使用增量匹配将新数据与现有数据进行匹配,而无需组合数据集以及混合匹配和不匹配的数据。

此功能在已推出 AWS Glue 的所有 AWS 区域提供。

要了解详情,请访问我们的文档并阅读博客文章