AWS Glue Data Catalog 现在支持按计划生成列级统计数据

发布于: 2024年11月13日

AWS Glue Data Catalog 现在支持按计划生成 Apache Iceberg 表和文件格式(例如 Parquet、JSON、CSV、XML、ORC 和 ION)的列级统计数据。此次发布之后,您可以通过在 Glue Data Catalog 中创建定期计划来简化和自动化统计数据的生成过程。这些统计数据与 Amazon Redshift Spectrum 和 Amazon Athena 基于成本的优化器 (CBO) 集成,从而提高了查询性能并节省潜在成本。

以前,要设置定期统计数据生成计划,必须结合使用 AWS Lambda 和Amazon EventBridge 调度器才能调用 AWS 服务。通过这项新功能,您现在可以将定期计划以及采样百分比作为附加配置提供给 Glue Data Catalog。对于每次计划运行,都会为 Apache Iceberg 表收集不同值数量 (NDV),并为其他文件格式收集额外统计数据,例如空值、最大长度、最小值和平均长度的数量。随着统计数据的更新,Amazon Redshift 和 Amazon Athena 会使用这些统计数据来优化查询,使用最佳联接顺序或基于成本的聚合下推等优化方法。您可以查看每次统计数据生成运行的状态和时间,以及更新后的统计数据值。

首先,您可以使用 AWS Glue Data Catalog 控制台或 AWS Glue API 来计划统计数据生成。对按计划生成 AWS Glue Data Catalog 统计数据的支持现已在提供 Amazon EventBridge 调度器的所有区域全面推出。要了解更多信息,请访问 AWS Glue Data Catalog 文档