投稿日: Nov 20, 2023
Amazon Redshift は、AWS Glue データカタログに保存されている列レベルの統計を活用して最適化されたクエリプランを生成することで、データレイククエリのパフォーマンスを向上させることができるようになりました。
AWS Glue は、AWS Glue データカタログの列レベルの統計をサポートしています。これにより、お客様は、各列の最小値や最大値、個別値の数などの統計情報を保存できます。Amazon Redshift は、この情報を AWS Glue から自動的に取得してから、統計を使用してクエリプランを最適化するようになりました。これにより、データレイククエリのパフォーマンスが改善されます。AWS Glue の列レベルの統計を生成するための最近導入された機能を使用すると、情報を手動で入力しなくても、データレイクテーブルから統計情報を自動的に収集して列レベルの統計を更新できます。
はじめに、AWS Glue Console または AWS Glue API を使用してデータレイクテーブルの列統計を生成し、自動マウントされた Glue カタログまたは外部スキーマを使用して Redshift でこれらのテーブルに対してクエリを実行できます。
AWS Glue の列レベルの統計を使用した Amazon Redshift データレイククエリプランの最適化は、Amazon Redshift Spectrum または Amazon Redshift Serverless が利用できるすべての AWS リージョンで一般提供されています。詳細については、Amazon Redshift のデータベースの開発者ガイドおよび AWS Glue のドキュメントをご覧ください。