发布于: Feb 10, 2021

AWS Glue 中的 FindMatches ML 转换现在包含有关数据集中的每一列对确定记录是否匹配有多大帮助的信息。使用 FindMatches 转换,即使记录没有公共的唯一标识符且没有字段完全匹配,您也可以在数据集中确定重复记录或匹配记录。此功能可让您轻松决定如何改进 FindMatches 转换。

以前需要使用迭代过程,并遵循有关特征工程的最佳实践指南来改进 FindMatches ML 转换。借助列重要性指标,AWS Glue 可提供直接的反馈,以了解在确定记录集相互匹配时衡量每列内容的权重。您可使用此信息转换数据集以改进匹配质量。

FindMatches ML 现已在与 AWS Glue 相同的 AWS 区域推出。

如需了解有关 FindMatches 的更多信息,请参阅我们的文档