发布于: Dec 19, 2022
AWS Glue 爬网程序现在增强了对 Linux Foundation Delta Lake 表的支持,从而提高了运营效率,可以从Amazon Athena、Amazon EMR 和 AWS Glue 等分析服务中提取有意义的见解。利用此功能,分析服务无需通过 Glue 爬网程序创建清单文件即可扫描 Delta Lake 表。现在,您可以使用首选的分析和机器学习(ML)工具快速提供新编目的数据以供分析。
以前,Glue 爬网程序通过在 Amazon S3 中创建清单文件供不同的分析服务使用,从而支持 Delta Lake 表。 Glue 爬网程序需要定期生成清单文件,以便在原始 Delta Lake 表中包含较新的事务,导致处理时间延长。
在今天的发布中,您可以创建和调度 Glue 爬网程序,其中可以选择创建原生 Delta Lake 表,然后提供通往 Delta Lake 表所在的 Amazon S3 的路径。每次运行爬网程序时,爬网程序都会检查架构信息和分区信息,例如更新或删除 Glue 数据目录中的 Delta Lake 表,并将其编入目录。