投稿日: Oct 15, 2021
AWS Glue には、Amazon S3 とリレーショナルデータベースのデータをスキャンし、スキーマを抽出して、AWS Glue Data Catalog に自動的に入力することで、データセットの検出をより簡単にする機能でであるクローラーが含まれています。これにより、メタデータが最新の状態に保たれます。この機能により、新しく取り込まれたデータを任意の分析および機械学習ツールですぐに利用することができるので、インサイトを取得するための時間が削減されます。
Amazon S3 内のデータを検出するよう AWS Glue クローラーを設定するとき、フルスキャン (指定したパスにあるすべてのオブジェクトがクローラーを実行するたびに処理されます) または増分スキャン (新しく追加されたフォルダー内のオブジェクトだけが処理されます) を選択できます。フルスキャンは、テーブルへの変更が特定できない場合、または影響を受けるオブジェクトやパーティションにない場合に便利です。増分スキャンは、新しいパーティションまたはフォルダがテーブルに追加された場合に便利です。頻繁に変更される大きなテーブルの場合、増分クローリングモードを使用すると、クローラーがオブジェクトの変更を特定するまでの時間が短縮されます。
本日、AWS Glue Data Catalog テーブルを増分的に更新する AWS Glue クローラーのソースとして Amazon S3 イベント通知のサポートが開始されました。お客様は、Amazon S3 イベント通知を設定して、クローラーが新しく追加または削除されたオブジェクトを識別するために使用する Amazon Simple Queue Service (SQS) キューに送信できるようになります。クローラーが実行するたびに、SQS キューで新しいイベントが検査されます。新しいイベントが検出されない場合、クローラーは停止します。キューでイベントが見つかった場合、クローラーは該当するフォルダを検査し、新しいオブジェクトを処理します。この新しいモードを使用すると、頻繁に変更される大きなテーブルをクローラーが更新するためのコストと時間が削減されます。
AWS Glue のクローラーでの Amazon S3 イベント通知のサポートは、AWS Glue が提供されているすべてのリージョンで利用できます。詳細については、AWS リージョン表を参照してください。詳細については、AWS Glue クローラーのドキュメントを参照してください。