AWS Glue Data Catalog 现在可以自动为新表生成统计数据

发布于: 2024年12月3日

AWS Glue Data Catalog 现在可以自动为新表生成统计数据。这些统计数据与 Amazon Redshift 和 Amazon Athena 基于成本的优化器（CBO）集成，从而提高了查询性能并节省了潜在成本。

Amazon Redshift 和 Amazon Athena 等查询引擎使用表统计数据来确定执行查询的最有效方式。以前，要在 AWS Glue Data Catalog 中为 Apache Iceberg 表创建统计数据，您需要持续监控和更新表的配置。而现在，AWS Glue Data Catalog 让您可以使用一次性目录配置自动为新表生成统计数据。您可以先在 Lake Formation 控制台中选择默认目录，然后在表优化配置选项卡中启用表统计数据。在创建新表或更新现有表时，系统会对所有列的部分行进行抽样以便生成统计数据，并会定期刷新这一数据。对于 Apache Iceberg 表，其统计数据中包括不同值的数量（NDV）。对于其他文件格式（如 Parquet），系统还会收集其他统计数据，例如空值、最大值和最小值的数量以及平均长度。Amazon Redshift 和 Amazon Athena 会使用更新后的统计数据来优化查询，采用的优化方法包括最佳联接顺序或基于成本的聚合下推等。您可以通过 Glue Catalog 控制台查看更新后的统计数据和统计数据生成情况。

对自动生成 AWS Glue Catalog 统计数据的支持现已在以下 AWS 区域全面推出：美国东部（弗吉尼亚州北部、俄亥俄州）、美国西部（北加利福尼亚、俄勒冈州）、欧洲地区（爱尔兰）、亚太地区（东京）。要了解更多信息，请阅读博客文章并访问 AWS Glue Catalog 文档。

选择您的 Cookie 首选项

AWS Glue Data Catalog 现在可以自动为新表生成统计数据

终止对 Internet Explorer 的支持