投稿日: Nov 17, 2023

AWS Glue データカタログは、AWS Glue テーブルに関する列レベルの統計情報の生成をサポートするようになりました。これらの統計情報は、Amazon Athena および Amazon Redshift Spectrum のコストベースオプティマイザー (CBO) と統合されたため、クエリのパフォーマンスが向上し、コスト削減につながる可能性があります。

このリリースにより、Glue テーブルの統計情報を収集して Glue カタログに保存し、分析サービスで利用できるようにしてクエリのプランニングと実行を改善するという、統合されたエンドツーエンドのエクスペリエンスがお客様に提供されます。これらの統計は、Parquet、ORC、JSON、ION、CSV、XML などのファイルにおける個別の値の数、NULL の数、最大値、最小値などの列レベルの統計です。統計を使用することにより、Amazon Athena や Amazon Redshift などの分析サービスでは、クエリ処理のできるだけ早い段階で最も制限の厳しいフィルターを適用することができ、クエリ結果を得るためのメモリ使用量と読み取りレコード数を制限してクエリを最適化できます。

最初にユーザーは AWS Glue コンソールまたは AWS Glue API を使用して、AWS Glue カタログテーブルの統計を生成し、統計を表示できます。お客様が Amazon Athena と Amazon Redshift Spectrum からクエリを実行すると、AWS Glue カタログとの組み込み統合により、クエリのパフォーマンスが自動的に向上します。

AWS Glue カタログ統計情報の生成のサポートは、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、欧州 (アイルランド)、アジアパシフィック (東京、大阪) リージョンの各 AWS リージョンで一般提供されています。詳細については、Athena のブログ投稿を読み、AWS Glue カタログのドキュメントをご覧ください。