发布于: Apr 24, 2023

AWS Glue 爬网程序从 Amazon S3 提取数据架构和分区,并填充 AWS Glue Data Catalog,使元数据保持最新状态。如今,AWS Glue 爬网程序的支持已扩展到自动为新发现的表添加分区索引,这将有助于分析服务(如 Amazon Athena 和 AWS Glue)优化分区处理,从而帮助提升高度分区表的查询性能。 

随着时间的推移,给定表中的分区数量可能会显著增加。当 Amazon Athena 等分析服务查询包含数百万个分区的表时,检索分区所需的时间会增加,并可能导致查询运行时增加。在此版本中,当 AWS Glue 爬网程序创建新的 AWS Glue Data Catalog 表时,它还会默认创建分区索引,无需手动创建。然后,AWS Glue Data Catalog 将根据分区索引键创建快速、可搜索的索引,从而减少在具有数百万个分区的表上检索和筛选分区元数据所需的时间。创建分区索引还有利于在 Amazon AthenaAmazon EMRAmazon Redshift SpectrumAWS Glue 上运行的分析工作负载。

AWS Glue 爬网程序对创建分区索引的支持已在所有提供 AWS Glue 的商业区域全面推出。要了解详情,请访问 AWS Glue 爬网程序文档