AWS Glue データカタログが Apache Iceberg テーブルの統計情報の生成を新たにサポート

投稿日: 2024年7月9日

AWS Glue データカタログで、Apache Iceberg テーブルの列レベルの集計統計の生成がサポートされるようになりました。これらの統計情報は、Amazon Redshift Spectrum のコストベースオプティマイザー (CBO) と統合されたため、クエリのパフォーマンスが向上し、コスト削減につながる可能性があります。

Apache Iceberg は nulls、min、max などの統計をサポートしていますが、個別値の数 (NDV) などの集計統計の生成はサポートしていません。今回のリリースにより、NDV が Apache Iceberg テーブルの列に対して収集され、Apache Iceberg Puffin ファイルに格納されるエンドツーエンドのエクスペリエンスが統合されました。Amazon Redshift はこれらの集計統計を使用することにより、クエリ処理のできるだけ早い段階で最も制限の厳しいフィルターを適用し、クエリ結果を得るためのメモリ使用量と読み取りレコード数を制限してクエリを最適化します。

はじめに、AWS Glue コンソールまたは AWS Glue API を使用して Apache Iceberg テーブルの統計を生成できます。実行するたびに、Glue カタログは現在の Iceberg テーブルスナップショットの統計情報を計算し、Iceberg puffin ファイルと Glue カタログに保存します。Amazon Redshift Spectrum からクエリを実行する際に、Apache Iceberg との組み込み統合により、自動的にクエリのパフォーマンスが向上します。

AWS Glue カタログ統計情報の生成のサポートは、米国東部 (オハイオ)、米国西部 (北カリフォルニア)、欧州 (フランクフルト)、アジアパシフィック (ムンバイ) の各 AWS リージョンで一般提供されています。詳細については、ブログ投稿をお読みいただき、AWS Glue カタログのドキュメントをご覧ください。