发布于: Dec 19, 2022

AWS Glue 爬网程序现在增强了对 Linux Foundation Delta Lake 表的支持,从而提高了运营效率,可以从Amazon AthenaAmazon EMRAWS Glue 等分析服务中提取有意义的见解。利用此功能,分析服务无需通过 Glue 爬网程序创建清单文件即可扫描 Delta Lake 表。现在,您可以使用首选的分析和机器学习(ML)工具快速提供新编目的数据以供分析。 

以前,Glue 爬网程序通过在 Amazon S3 中创建清单文件供不同的分析服务使用,从而支持 Delta Lake 表。 Glue 爬网程序需要定期生成清单文件,以便在原始 Delta Lake 表中包含较新的事务,导致处理时间延长。 

在今天的发布中,您可以创建和调度 Glue 爬网程序,其中可以选择创建原生 Delta Lake 表,然后提供通往 Delta Lake 表所在的 Amazon S3 的路径。每次运行爬网程序时,爬网程序都会检查架构信息和分区信息,例如更新或删除 Glue 数据目录中的 Delta Lake 表,并将其编入目录。

AWS Glue 爬网程序对原生 Delta Lake 表的支持适用于所有提供 AWS Glue 的商业区域,请参阅 AWS 区域表。 Athena 引擎版本 3.0 和 Glue 版本 3.0 或更高版本中提供了增强的 Delta Lake 支持。要了解更多信息,请阅读此博客,并访问 AWS Glue 爬网程序文档