投稿日: Dec 19, 2022
AWS Glue クローラーで Linux Foundation Delta Lake テーブルのサポートが強化されたことで運用効率が向上し、Amazon Athena、Amazon EMR、AWS Glue などの分析サービスから有意義なインサイトを抽出できるようになりました。この機能により、Glue クローラーでマニフェストファイルを作成しなくても、分析サービスで Delta Lake テーブルをスキャンできます。新たにカタログ化されたデータが、任意の分析ツールや機械学習 (ML) ツールを使用してすぐに分析できるようになりました。
以前は、Glue クローラーは、さまざまな分析サービスで使用できるように Amazon S3 にマニフェストファイルを作成することで Delta Lake テーブルをサポートしていました。 Glue クローラーでは、元の Delta Lake テーブルに新しいトランザクションを追加するためにマニフェストファイルを定期的に生成する必要があり、その結果、処理時間が長くなっていました。
本日のリリースにより、ネイティブ Delta Lake テーブルを作成できる Glue クローラーを作成してスケジューリングし、Delta Lake テーブルがある Amazon S3 へのパスを指定できます。クローラーを実行するたびに、クローラーはスキーマ情報とパーティション情報 (更新や削除など) を検査して、Glue データカタログの Delta Lake テーブルにカタログ化します。
AWS Glue クローラーによるネイティブ Delta Lake テーブルのサポートは、AWS Glue が利用できるすべての商用リージョンでご利用いただけます。対象のリージョンについては AWS リージョン表を参照してください。 Delta Lake のサポートが強化され、Athena エンジンバージョン 3.0 と Glue バージョン 3.0 以降で利用できるようになりました。詳細については、ブログをご一読のうえ、AWS Glue クローラーのドキュメントにアクセスしてください。