全新 AWS Glue 4.0 — 全新和更新的引擎、更多数据格式等

AWS Glue 是一款可扩展的无服务器工具，可帮助您加快数据集成和 ETL 工作负载的开发和执行。今天，我们将推出 Glue 4.0，其中包含更新的引擎、对其他数据格式的支持、Ray 支持等等。

在我深入探讨之前，先谈一下版本控制。与大多数由服务团队拥有并完全控制 API 的 AWS 服务不同，Glue 包含一系列由开源社区开发的库、引擎和工具。其中一些组件不能保持严格的向后兼容性，通常是为了追求效率。为了确保组件的更改不会影响您的 Glue 作业，您在创建任务时必须选择特定的 Glue 版本。

除了增加的功能外，每个版本的 Glue 都包括性能和可靠性方面的优势，您应该计划随着时间的推移升级作业，以充分利用 Glue 所提供的一切。

深入了解 Glue
让我们来看看 Glue 4.0 中的新增功能：

更新的引擎 — 此版本的 Glue 包括 Python 3.10 和 Apache Spark 3.3.0。这两个引擎都包含错误修复和性能增强；Spark 包括行级运行时筛选、改进的错误消息、其他内置函数等新功能。Glue 和 Amazon EMR 使用了相同的优化的 Spark 运行时，该运行时已经过优化，可以在 AWS Cloud 中运行，比基本开源版本快 2-3 倍。

全新引擎插件 — Glue 4.0 增加了对适用于 Spark 的 Cloud Shuffle 服务插件的原生支持，可帮助您扩展磁盘使用量，并添加了自适应查询执行功能，可在查询运行时动态优化查询。

Pandas 支持 — Pandas 是一款基于 Python 构建的开源数据分析和操作工具。它易于学习，包括各种有趣且有用的数据操作功能。

新的数据格式 — 无论您是在构建数据湖还是数据仓库，Glue 4.0 现在都可以为源和目标处理新的开源数据格式，并支持 Apache Hudi、Apache Iceberg 和 Delta Lake。要了解有关这些新选项和格式的更多信息，请阅读通过实施关键设计概念使用 AWS Glue 开始使用 Apache Hudi。

其他所有内容 — 除了上述内容外，Glue 4.0 还包括 Parquet 矢量化阅读器，支持其他数据类型和编码。它已升级为使用 log4j 2，不再依赖于 log4j 1。

现已推出
Glue 4.0 现已在美国东部（俄亥俄州、弗吉尼亚州北部）、美国西部（加利福尼亚州北部、俄勒冈州）、非洲（开普敦）、亚太地区（香港、雅加达、孟买、大阪、首尔、新加坡、悉尼、东京）、加拿大（中部）、欧洲（法兰克福、爱尔兰、伦敦、米兰、巴黎、斯德哥尔摩）、中东（巴林）和南美（圣保罗）AWS 区域推出。

— Jeff；

亚马逊AWS官方博客

全新 AWS Glue 4.0 — 全新和更新的引擎、更多数据格式等

了解

资源

开发人员

帮助