Veröffentlicht am: Feb 10, 2021
Die FindMatches ML-Transformation in AWS Glue enthält jetzt Informationen darüber, wie viel jede Spalte im Dataset zur Bestimmung, ob Datensätze Übereinstimmungen waren, beigetragen hat. Mit der FindMatches-Transformation können Sie doppelte oder übereinstimmende Datensätze in Ihrem Dataset identifizieren, auch wenn die Datensätze keinen gemeinsamen eindeutigen Bezeichner haben und keine Felder genau übereinstimmen. Diese Funktion macht es einfacher zu entscheiden, wie Sie Ihre FindMatches-Transformationen verbessern können.
Zuvor mussten Sie einen iterativen Prozess anwenden und Best-Practice-Leitfäden zum Feature Engineering befolgen, um Ihre FindMatches ML-Transformationen zu verbessern. Mit den Metriken zur Spaltenwichtigkeit gibt AWS Glue Ihnen ein direktes Feedback darüber, wie stark es den Inhalt jeder Spalte gewichtet, wenn es feststellt, dass Datensätze einander entsprechen. Sie können diese Informationen verwenden, um Ihr Dataset zu transformieren und so die Qualität der Übereinstimmung zu verbessern.
Die FindMatches ML-Transformation ist in denselben AWS-Regionen wie AWS Glue verfügbar.
Weitere Informationen zu FindMatches finden Sie in unserer Dokumentation.