AWS Glue Data Catalog 现在支持为 Apache Iceberg 表生成统计数据
AWS Glue Data Catalog 现在支持为 Apache Iceberg 表生成聚合的列级统计数据。这些统计数据现在与 Amazon Redshift Spectrum 基于成本的优化器 (CBO) 集成,从而提高查询性能并节省潜在成本。
Apache Iceberg 支持空值、最小值、最大值等统计数据,但不支持生成不同值数量 (NDV) 等聚合统计数据。此次发布后,您可以获得集成的端到端体验,在 Apache Iceberg 表的列中收集 NDV,并将其存储在 Apache Iceberg Puffin 文件中。Amazon Redshift 使用这些聚合统计数据,通过在查询处理中尽早应用限制性最强的筛选条件来优化查询,从而限制内存使用量以及为提供查询结果而读取的记录数。
要开始使用,您可以使用 AWS Glue 控制台或 AWS Glue API 为 Apache Iceberg 表生成统计数据。每次运行时,Glue Catalog 会计算当前 Iceberg 表快照的统计数据,并将其存储在 Iceberg puffin 文件和 Glue Catalog 中。当您运行来自 Amazon Redshift Spectrum 的查询时,您将自动获得通过与 Apache Iceberg 的内置集成提供的查询性能改进。