投稿日: Feb 10, 2021
レコードが一致するかどうかを判定する際にデータセットの各列がどれだけ寄与したかを示す情報が AWS Glue の FindMatches ML 変換に含まれるようになりました。FindMatches 変換では、レコードに共通の一意の識別子がない場合や完全に一致するフィールドがない場合でも、データセット内の重複レコードまたは一致レコードを識別できます。この機能を使用すると、FindMatches 変換を向上させる方法を簡単に決定できます。
以前は、FindMatches ML 変換を向上させるには、反復処理を使用し、特徴エンジニアリングのベストプラクティスガイドに従う必要がありました。列の有用性メトリクスでは、AWS Glue は、そのレコードのセットが相互に一致することを判定する際に各列の内容に対する加重処理に関する直接的なフィードバックを提供します。この情報を使用して、データセットを変換し、一致品質を向上させることができます。
FindMatches ML 変換は、AWS Glue と同じ AWS リージョンで利用可能です。
FindMatches の詳細については、ドキュメントを参照してください。