Publié le: Feb 10, 2021
La transformation de ML FindMatches dans AWS Glue inclut désormais des informations au sujet de la contribution de chaque colonne dans l'ensemble de données afin de déterminer si les enregistrements sont des concordances. La transformation FindMatches vous permet d'identifier les doublons ou les enregistrements concordants dans votre ensemble de données, même lorsque ces enregistrements n'ont pas d'identifiant unique en commun et qu'aucun champ ne correspond exactement. Cette fonction facilite les décisions visant à améliorer les transformations FindMatches.
Il était auparavant nécessaire d'utiliser un processus itératif et de suivre le guide des bonnes pratiques relatif à l'ingénierie des fonctionnalités afin d'améliorer les transformations de ML FindMatches. Grâce aux indicateurs d'importance des colonnes, AWS Glue vous donne un retour direct sur le poids du contenu de chaque colonne lorsque vous déterminez si des ensembles d'enregistrements correspondent les uns aux autres. Vous pouvez vous servir de ces informations pour transformer votre ensemble de données afin d'améliorer la qualité des correspondances.
La transformation de ML FindMatches est disponible dans les mêmes régions AWS que pour AWS Glue.
Pour en savoir plus sur FindMatches, consultez notre documentation.