发布于: Jul 21, 2023

AWS Glue 爬网程序现在支持 Apache Hudi 表,让客户能够直接从 Amazon Athena 等 AWS 分析服务查询 Apache Hudi 表中的数据。Apache Hudi 是一种开源表格式,用于将数据库和数据仓库功能引入数据湖。Apache Hudi 帮助数据工程师管理不断变化的数据集,同时保持查询性能。 

要从 Apache Hudi 表中查询数据,Amazon Athena 用户以前必须在 Glue Data Catalog 中手动创建表并更新分区更改,以确保查询结果是最新的。新功能今日发布之后,用户可以通过运行 Glue 爬网程序自动将 Apache Hudi 表注册到 Glue Catalog 中。Glue 爬网程序支持分区和非分区写入时复制 (CoW) 和读取时合并 (MoR) Hudi 表。然后,用户可以在各种分析服务中查询 Glue Catalog Hudi 表,并应用 Lake Formation 的精细权限。使用 Glue 爬网程序,用户还可以将数据从其他 Hudi Catalog 迁移到 Glue Catalog。 

首先,用户需要创建、运行或安排 Glue 爬网程序,并提供一条或多条指向 Hudi 表的 Amazon S3 路径。每次运行时,Glue 爬网程序都会提取架构、分区信息,并根据架构、分区更改和最新的 Hudi 元数据文件位置更新 Glue Catalog。

AWS Glue 爬网程序对 Hudi 表的支持已在所有推出 AWS Glue 的商业区域提供,请参阅 AWS 区域表。要了解详情,请访问 AWS Glue 爬网程序文档