投稿日: Mar 30, 2022

AWS Glue バージョン 2.0 は、AWS Glue FindMatches 機械学習の変換をサポートするようになりました。AWS Glue FindMatches は、顧客レコードのリンク、製品カタログの重複排除、不正検出などのユースケースにおいて、部分的に一致するレコードを特定するプロセスを自動化します。Glue 2.0 では、FindMatches を使用してファジーマッチングを実行する ETL ジョブは 1 分以内に開始され、1 分の最低料金が適用されます。

FindMatches 変換を使用すると、データセット内の関連性のあるレコードを特定し、結合または重複排除を実行できます。例えば、この機能は、スペルやフォーマットが違っていても、同一のレコードだと認識することができます。「John Doe」と「Jhn Doe」、「JOHN_DOE@ANYCOMPANY.COM」と「johndoe@anycompany.com」、「555-010-0000」と「+1-555-010-0000」などです。

この機能は、AWS Glue が利用できる AWS リージョンでご利用いただけます。

詳しくは、ドキュメントや FindMatches ブログ記事をご参照ください。