AWS Glue データカタログが Apache Iceberg テーブルのストレージ最適化をサポート

投稿日: 2024年9月12日

AWS Glue データカタログは、不要になったデータファイルを自動的に削除することで、Apache Iceberg テーブルのストレージ最適化をサポートするようになりました。Iceberg テーブルに書き込むたびに、テーブルの新しいスナップショット、つまりバージョンが作成されます。さらに、Iceberg テーブルへの書き込み中に障害が発生すると、スナップショットで参照されない「孤立ファイル」と呼ばれるデータファイルが作成され、ストレージコストがさらに増加します。AWS Glue カタログの新しいストレージ最適化と自動圧縮により、メタデータのオーバーヘッドを削減し、ストレージコストを抑え、クエリパフォーマンスを向上させることができます。

今回のリリースにより、AWS Glue カタログテーブルの最適化を有効にして、スナップショットと孤立データ管理を含めることができます。デフォルトの保持期間や孤立ファイルを保存する日数などの設定を指定することで、Amazon S3 のレイアウトを最適化できます。有効にすると、AWS Glue カタログは定期的にテーブルを監視し、テーブルメタデータからスナップショットを削除し、Amazon S3 データファイル、不要になった孤立ファイルを削除します。Glue カタログコンソールの [テーブル最適化] タブから削除されたデータ数、マニフェスト、マニフェストリスト、および孤立ファイルの履歴を表示できます。

AWS コンソールに加えて、AWS CLI または AWS SDK を使用して Apache Iceberg テーブルのテーブル最適化を有効にすることもできます。Iceberg テーブルの自動最適化は、米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン)、欧州 (アイルランド、ロンドン、フランクフルト、ストックホルム)、アジアパシフィック (東京、ソウル、ムンバイ、シンガポール、シドニー)、南米 (サンパウロ) の 13 の AWS リージョンで利用できます。詳細については、ブログをご一読のうえ、AWS Glue データカタログのドキュメントを参照してください。