发布于: Nov 20, 2023
Amazon Redshift 现在可以利用存储在 AWS Glue Data Catalog 中的列级统计数据,通过生成优化的查询计划来提高数据湖查询性能。
AWS Glue 支持 AWS Glue Data Catalog 中的列级统计数据,这让客户能够存储各种统计信息,例如每列的最小值和最大值以及不同值的数量。Amazon Redshift 现在可以自动从 AWS Glue 检索相关信息,然后使用统计数据来优化查询计划,并支持针对数据湖查询的性能改进。借助最近推出的生成列级统计数据的 AWS Glue 功能,您可以自动从数据湖表格中收集统计信息并更新列级统计数据,而不必手动填充这些信息。
首先,您可以使用 AWS Glue 控制台或 AWS Glue API 为您的数据湖表格生成列统计数据,然后您可以使用自动安装的 Glue 目录或外部架构在 Redshift 中对这些表格运行查询。
所有提供 Amazon Redshift Spectrum 或 Amazon Redshift Serverless 的 AWS 区域均支持使用 AWS Glue 列级统计数据优化 Amazon Redshift 数据湖查询计划。要了解更多信息,请访问 Amazon Redshift 数据库开发人员指南和 AWS Glue 文档。