投稿日: Oct 14, 2022

AWS Glue には、Amazon S3 イベント通知に基づくクローラーが含まれています。これは、Amazon S3 のイベントに基づくデータのスキャンのみを行うことにより、データセットの検出をより簡単にする機能です。Glue クローラーによりデータスキーマが抽出され、AWS Glue データカタログに自動的に入力され、メタデータはここで最新に保たれます。S3 イベントに基づいてデータセットをクローリングすると、新しく取り込まれたデータを任意の分析および機械学習ツールですぐに利用することができるので、インサイトを取得するための時間が削減されます。

現在このサポートは、データパイプライン内で実行される API 呼び出しなど、クローラー以外のメソッドによって作成されたカタログテーブルの増分クローリングと更新まで拡大しています。この機能により、増分クローリングをデータパイプラインからスケジュール済みの Glue Crawler にオフロードできるようになり、クロールが増分 S3 イベントとして扱えるようになります。

増分クローリングを実現するため、お客様は Amazon S3 イベント通知が Amazon Simple Queue Service (SQS) キューに送信されるように設定できます。 その後、SQS キューを変更の識別のためのソースとして使用し、Glue データカタログテーブルをターゲットとして Glue Crawler をスケジュールまたは実行することができます。クローラーが実行されるたびに、新しいイベントを検出するために SQS キューが検査されます。新しいイベントが検出されない場合、クローラーは停止します。キューでイベントが検出された場合、クローラーによりそれぞれのフォルダーが検査され、組み込みの分類子 (CSV、JSON、AVRO、XML など) を介して処理され、変更が判断されます。その後、新しく追加または削除されたパーティションや列などの新しい情報に基づいて Glue データカタログが更新されます。この機能により、頻繁に変更される大規模な Amazon S3 データをクローリングするためのコストと時間が削減されます。

この機能は、AWS Glue を利用できるすべての商用リージョンで利用できます。AWS リージョン表をご参照ください。詳細については、ブログをご一読のうえ、AWS Glue クローラーのドキュメントにアクセスしてください。