AWS Glue Data Catalog 现在支持按计划生成列级统计数据

发布于: 2024年11月13日

AWS Glue Data Catalog 现在支持按计划生成 Apache Iceberg 表和文件格式（例如 Parquet、JSON、CSV、XML、ORC 和 ION）的列级统计数据。此次发布之后，您可以通过在 Glue Data Catalog 中创建定期计划来简化和自动化统计数据的生成过程。这些统计数据与 Amazon Redshift Spectrum 和 Amazon Athena 基于成本的优化器 (CBO) 集成，从而提高了查询性能并节省潜在成本。

以前，要设置定期统计数据生成计划，必须结合使用 AWS Lambda 和Amazon EventBridge 调度器才能调用 AWS 服务。通过这项新功能，您现在可以将定期计划以及采样百分比作为附加配置提供给 Glue Data Catalog。对于每次计划运行，都会为 Apache Iceberg 表收集不同值数量 (NDV)，并为其他文件格式收集额外统计数据，例如空值、最大长度、最小值和平均长度的数量。随着统计数据的更新，Amazon Redshift 和 Amazon Athena 会使用这些统计数据来优化查询，使用最佳联接顺序或基于成本的聚合下推等优化方法。您可以查看每次统计数据生成运行的状态和时间，以及更新后的统计数据值。

首先，您可以使用 AWS Glue Data Catalog 控制台或 AWS Glue API 来计划统计数据生成。对按计划生成 AWS Glue Data Catalog 统计数据的支持现已在提供 Amazon EventBridge 调度器的所有区域全面推出。要了解更多信息，请访问 AWS Glue Data Catalog 文档。

选择您的 Cookie 首选项

AWS Glue Data Catalog 现在支持按计划生成列级统计数据

终止对 Internet Explorer 的支持