发布于: Nov 17, 2023

AWS Glue Data Catalog 现在支持为 AWS Glue 表生成列级统计数据。这些统计数据现在与 Amazon Athena 和 Amazon Redshift Spectrum 基于成本的优化器 (CBO) 集成,从而提高查询性能并节省潜在成本。

通过此次发布,客户现在可以获得集成的端到端体验,收集将 Glue 表的统计数据并存储在 Glue Catalog 中,然后提供给分析服务,以改进查询规划和执行。这些统计数据是列级统计数据,如 Parquet、ORC、JSON、ION、CSV、XML 等文件上的不同值数、空值数、最大值和最小值。借助统计数据,Amazon Athena 和 Amazon Redshift 等分析服务可以在查询处理中尽早应用限制性最强的筛选条件来优化查询,从而限制内存使用量以及为提供查询结果而读取的记录数。

要开始使用,用户可以使用 AWS Glue 控制台或 AWS Glue API 为 AWS Glue Catalog 表生成统计数据,然后查看这些统计数据。在运行来自 Amazon AthenaAmazon Redshift Spectrum 的查询时,客户将自动获得通过 AWS Glue Catalog 内置集成提供的查询性能改进。

对生成 AWS Glue Catalog 统计数据的支持现已在以下 AWS 区域全面推出:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(俄勒冈州)、欧洲地区(爱尔兰)、亚太地区(东京、大阪)。要了解更多信息,请参阅 Athena 博客文章和 AWS Glue Catalog 文档