投稿日: Jul 7, 2023
AWS Glue クローラーで Apache Iceberg テーブルがサポートされるようになりました。これにより、AWS Glue データカタログを Iceberg テーブルのカタログとして採用したり、他の Iceberg カタログから移行したりすることが簡単になりました。Apache Iceberg は、データレイクに保存されたデータのためのオープンソースのテーブル形式です。データエンジニアがクエリのパフォーマンスを維持しながら、絶えず進化するデータセットを管理するなどの複雑な課題に対処するのに役立ちます。本日のリリースでは、Glue クローラーを実行することで Iceberg テーブルを Glue カタログに自動的に登録できるようになりました。登録後は、さまざまな分析エンジンで Glue カタログの Iceberg テーブルをクエリしたり、Amazon Athena からクエリを実行する際に Lake Formation のきめ細かいアクセス許可を適用したりできるようになります。
他の Iceberg カタログから移行する場合、Glue クローラーを作成してスケジュールし、Iceberg テーブルが配置されている Amazon S3 パスを 1 つ以上指定できます。Glue クローラーが通過できる S3 パスの最大深度を指定することもできます。実行されるたびに、Glue クローラーはスキーマ情報を抽出し、スキーマの変更を反映して Glue カタログを更新します。Glue クローラーは、スナップショット間のスキーマのマージをサポートし、AWS 分析エンジンが直接使用できる Glue カタログ内の最新のメタデータファイルの場所を更新します。
AWS Glue クローラーによる Iceberg テーブルのサポートは、AWS Glue が利用できるすべての商用リージョンでご利用いただけます。対象のリージョンについては AWS リージョン表を参照してください。詳細については、AWS Glue クローラーのドキュメントを参照してください。