AWS Glue データカタログが Apache Iceberg テーブルの統計情報の生成を新たにサポート
AWS Glue データカタログで、Apache Iceberg テーブルの列レベルの集計統計の生成がサポートされるようになりました。これらの統計情報は、Amazon Redshift Spectrum のコストベースオプティマイザー (CBO) と統合されたため、クエリのパフォーマンスが向上し、コスト削減につながる可能性があります。
Apache Iceberg は nulls、min、max などの統計をサポートしていますが、個別値の数 (NDV) などの集計統計の生成はサポートしていません。今回のリリースにより、NDV が Apache Iceberg テーブルの列に対して収集され、Apache Iceberg Puffin ファイルに格納されるエンドツーエンドのエクスペリエンスが統合されました。Amazon Redshift はこれらの集計統計を使用することにより、クエリ処理のできるだけ早い段階で最も制限の厳しいフィルターを適用し、クエリ結果を得るためのメモリ使用量と読み取りレコード数を制限してクエリを最適化します。
はじめに、AWS Glue コンソールまたは AWS Glue API を使用して Apache Iceberg テーブルの統計を生成できます。実行するたびに、Glue カタログは現在の Iceberg テーブルスナップショットの統計情報を計算し、Iceberg puffin ファイルと Glue カタログに保存します。Amazon Redshift Spectrum からクエリを実行する際に、Apache Iceberg との組み込み統合により、自動的にクエリのパフォーマンスが向上します。