发布于: Jul 7, 2023

AWS Glue 爬网程序现在支持 Apache Iceberg 表,简化了采用 AWS Glue Data Catalog 作为 Iceberg 表目录以及从其他 Iceberg 目录迁移的过程。Apache Iceberg 一种适用于存储在数据湖中的数据的开源表格式,可帮助数据工程师应对复杂的挑战,例如在保持查询性能的同时管理不断变化的数据集。在今天发布后,您可以通过运行 Glue 爬网程序自动将 Iceberg 表注册到 Glue 目录中。然后,您可以在各种分析引擎中查询 Glue 目录的 Iceberg 表,并在从 Amazon Athena 进行查询时应用 Lake Formation 精细权限。

从其他 Iceberg 目录迁移时,您可以创建和安排一个 Glue 爬网程序,并提供 Iceberg 表所在的一个或多个 Amazon S3 路径。您可以选择提供 Glue 爬网程序可以穿过的 S3 路径的最大深度。每次运行时,Glue 爬网程序都会提取架构信息,并使用相关架构更改来更新 Glue 目录。Glue 爬网程序支持跨快照合并架构,并会更新 AWS 分析引擎可以直接使用的 Glue 目录中最新的元数据文件位置。

AWS Glue 爬网程序对 Iceberg 表的支持已在所有推出 AWS Glue 的商业区域提供,请参阅 AWS 区域表。要了解更多信息,请参阅 AWS Glue 爬网程序文档