AWS Glue Data Catalog 现在支持为 Apache Iceberg 表生成统计数据

发布于: 2024年7月9日

AWS Glue Data Catalog 现在支持为 Apache Iceberg 表生成聚合的列级统计数据。这些统计数据现在与 Amazon Redshift Spectrum 基于成本的优化器 (CBO) 集成，从而提高查询性能并节省潜在成本。

Apache Iceberg 支持空值、最小值、最大值等统计数据，但不支持生成不同值数量 (NDV) 等聚合统计数据。此次发布后，您可以获得集成的端到端体验，在 Apache Iceberg 表的列中收集 NDV，并将其存储在 Apache Iceberg Puffin 文件中。Amazon Redshift 使用这些聚合统计数据，通过在查询处理中尽早应用限制性最强的筛选条件来优化查询，从而限制内存使用量以及为提供查询结果而读取的记录数。

要开始使用，您可以使用 AWS Glue 控制台或 AWS Glue API 为 Apache Iceberg 表生成统计数据。每次运行时，Glue Catalog 会计算当前 Iceberg 表快照的统计数据，并将其存储在 Iceberg puffin 文件和 Glue Catalog 中。当您运行来自 Amazon Redshift Spectrum 的查询时，您将自动获得通过与 Apache Iceberg 的内置集成提供的查询性能改进。

对生成 AWS Glue Catalog 统计数据的支持现已在以下 AWS 区域全面推出：美国东部（俄亥俄州）、美国西部（北加利福尼亚）、欧洲地区（法兰克福）、亚太地区（孟买）。要了解更多信息，请阅读博客文章并访问 AWS Glue Catalog 文档。

选择您的 Cookie 首选项

AWS Glue Data Catalog 现在支持为 Apache Iceberg 表生成统计数据

终止对 Internet Explorer 的支持