亚马逊AWS官方博客
全新 AWS Glue 4.0 — 全新和更新的引擎、更多数据格式等
AWS Glue 是一款可扩展的无服务器工具,可帮助您加快数据集成和 ETL 工作负载的开发和执行。今天,我们将推出 Glue 4.0,其中包含更新的引擎、对其他数据格式的支持、Ray 支持等等。
在我深入探讨之前,先谈一下版本控制。与大多数由服务团队拥有并完全控制 API 的 AWS 服务不同,Glue 包含一系列由开源社区开发的库、引擎和工具。其中一些组件不能保持严格的向后兼容性,通常是为了追求效率。为了确保组件的更改不会影响您的 Glue 作业,您在创建任务时必须选择特定的 Glue 版本。
除了增加的功能外,每个版本的 Glue 都包括性能和可靠性方面的优势,您应该计划随着时间的推移升级作业,以充分利用 Glue 所提供的一切。
深入了解 Glue
让我们来看看 Glue 4.0 中的新增功能:
更新的引擎 — 此版本的 Glue 包括 Python 3.10 和 Apache Spark 3.3.0。这两个引擎都包含错误修复和性能增强;Spark 包括行级运行时筛选、改进的错误消息、其他内置函数等新功能。Glue 和 Amazon EMR 使用了相同的优化的 Spark 运行时,该运行时已经过优化,可以在 AWS Cloud 中运行,比基本开源版本快 2-3 倍。
全新引擎插件 — Glue 4.0 增加了对适用于 Spark 的 Cloud Shuffle 服务插件的原生支持,可帮助您扩展磁盘使用量,并添加了自适应查询执行功能,可在查询运行时动态优化查询。
Pandas 支持 — Pandas 是一款基于 Python 构建的开源数据分析和操作工具。它易于学习,包括各种有趣且有用的数据操作功能。
新的数据格式 — 无论您是在构建数据湖还是数据仓库,Glue 4.0 现在都可以为源和目标处理新的开源数据格式,并支持 Apache Hudi、Apache Iceberg 和 Delta Lake。要了解有关这些新选项和格式的更多信息,请阅读通过实施关键设计概念使用 AWS Glue 开始使用 Apache Hudi。
其他所有内容 — 除了上述内容外,Glue 4.0 还包括 Parquet 矢量化阅读器,支持其他数据类型和编码。它已升级为使用 log4j 2,不再依赖于 log4j 1。
现已推出
Glue 4.0 现已在美国东部(俄亥俄州、弗吉尼亚州北部)、美国西部(加利福尼亚州北部、俄勒冈州)、非洲(开普敦)、亚太地区(香港、雅加达、孟买、大阪、首尔、新加坡、悉尼、东京)、加拿大(中部)、欧洲(法兰克福、爱尔兰、伦敦、米兰、巴黎、斯德哥尔摩)、中东(巴林)和南美(圣保罗)AWS 区域推出。
— Jeff;