AWS Glue Data Catalog 现在支持为 Apache Iceberg 表生成统计数据

发布于: 2024年7月9日

AWS Glue Data Catalog 现在支持为 Apache Iceberg 表生成聚合的列级统计数据。这些统计数据现在与 Amazon Redshift Spectrum 基于成本的优化器 (CBO) 集成,从而提高查询性能并节省潜在成本。

Apache Iceberg 支持空值、最小值、最大值等统计数据,但不支持生成不同值数量 (NDV) 等聚合统计数据。此次发布后,您可以获得集成的端到端体验,在 Apache Iceberg 表的列中收集 NDV,并将其存储在 Apache Iceberg Puffin 文件中。Amazon Redshift 使用这些聚合统计数据,通过在查询处理中尽早应用限制性最强的筛选条件来优化查询,从而限制内存使用量以及为提供查询结果而读取的记录数。

要开始使用,您可以使用 AWS Glue 控制台或 AWS Glue API 为 Apache Iceberg 表生成统计数据。每次运行时,Glue Catalog 会计算当前 Iceberg 表快照的统计数据,并将其存储在 Iceberg puffin 文件和 Glue Catalog 中。当您运行来自 Amazon Redshift Spectrum 的查询时,您将自动获得通过与 Apache Iceberg 的内置集成提供的查询性能改进。

对生成 AWS Glue Catalog 统计数据的支持现已在以下 AWS 区域全面推出:美国东部(俄亥俄州)、美国西部(北加利福尼亚)、欧洲地区(法兰克福)、亚太地区(孟买)。要了解更多信息,请阅读博客文章并访问 AWS Glue Catalog 文档