AWS Glue Data Catalog 现在可以自动为新表生成统计数据

发布于: 2024年12月3日

AWS Glue Data Catalog 现在可以自动为新表生成统计数据。这些统计数据与 Amazon Redshift 和 Amazon Athena 基于成本的优化器(CBO)集成,从而提高了查询性能并节省了潜在成本。

Amazon Redshift 和 Amazon Athena 等查询引擎使用表统计数据来确定执行查询的最有效方式。以前,要在 AWS Glue Data Catalog 中为 Apache Iceberg 表创建统计数据,您需要持续监控和更新表的配置。而现在,AWS Glue Data Catalog 让您可以使用一次性目录配置自动为新表生成统计数据。您可以先在 Lake Formation 控制台中选择默认目录,然后在表优化配置选项卡中启用表统计数据。在创建新表或更新现有表时,系统会对所有列的部分行进行抽样以便生成统计数据,并会定期刷新这一数据。对于 Apache Iceberg 表,其统计数据中包括不同值的数量(NDV)。对于其他文件格式(如 Parquet),系统还会收集其他统计数据,例如空值、最大值和最小值的数量以及平均长度。Amazon Redshift 和 Amazon Athena 会使用更新后的统计数据来优化查询,采用的优化方法包括最佳联接顺序或基于成本的聚合下推等。您可以通过 Glue Catalog 控制台查看更新后的统计数据和统计数据生成情况。

对自动生成 AWS Glue Catalog 统计数据的支持现已在以下 AWS 区域全面推出:美国东部(弗吉尼亚州北部、俄亥俄州)、美国西部(北加利福尼亚、俄勒冈州)、欧洲地区(爱尔兰)、亚太地区(东京)。要了解更多信息,请阅读博客文章并访问 AWS Glue Catalog 文档