AWS Glue データカタログで新しいテーブルの統計情報生成が自動化

投稿日: 2024年12月3日

AWS Glue データカタログで、新しいテーブルの統計情報生成が自動化されました。これらの統計情報は、Amazon Redshift および Amazon Athena のコストベースオプティマイザー (CBO) と統合されているため、クエリのパフォーマンスが向上し、コスト削減につながる可能性があります。

テーブルの統計情報は、クエリを実行する最も効率的な方法を判断するために、Amazon Redshift や Amazon Athena などのクエリエンジンで使用されます。以前は、AWS Glue データカタログで Apache Iceberg テーブルの統計情報を作成するには、テーブルの設定を継続的に監視して更新する必要がありました。AWS Glue データカタログでは、1 回のカタログ設定で新しいテーブルの統計情報を自動的に生成できるようになりました。Lake Formation コンソールでデフォルトカタログを選択し、テーブル最適化設定のタブでテーブルの統計情報を有効にすることから始めることができます。新しいテーブルが作成されるか既存のテーブルが更新されると、すべての列のサンプル行を使用して統計情報が生成され、定期的に更新されます。Apache Iceberg テーブルの場合、これらの統計情報には個別の値の数 (NDV) が含まれます。Parquet などの他のファイル形式では、NULL の数、最大値と最小値、平均長などの追加の統計情報が収集されます。Amazon Redshift と Amazon Athena では、更新された統計情報を使用してクエリを最適化します。最適な結合順序やコストベースの集約プッシュダウンなどの最適化が使用されます。Glue カタログコンソールでは、更新された統計情報と統計情報生成の実行状況を確認できます。

AWS Glue カタログ統計情報の自動化のサポートは、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (北カリフォルニア)、米国西部 (オレゴン)、欧州 (アイルランド)、アジアパシフィック (東京) の各 AWS リージョンで一般提供されています。詳細については、ブログ投稿をお読みいただき、AWS Glue カタログのドキュメントをご覧ください。