发布于: Aug 19, 2021

我们于今日很高兴地宣布推出 AWS Glue 3.0 版,这是适用于批处理和串流作业的全新版本 AWS Glue Spark,可加速 AWS 中的数据集成工作负载。AWS Glue 3.0 引入了经过性能优化的 Spark 运行时,其中包括来自 AWS Glue 和 Amazon EMR 的优化,并且基于开源的 Apache Spark 3.1.1。AWS Glue 3.0 运行时使用更快的矢量化读取器和 Amazon S3 优化的输出提交器,从而优化了对 Amazon Simple Storage Service (Amazon S3) 的读写访问。它还使用分区谓词优化对 AWS Glue 数据目录的访问。 对于高度分区的数据集,Glue 3.0 通过使用分区索引筛选不必要的分区,从而提升执行速度。AWS Glue 3.0 运行时还与 AWS Lake Formation 完全集成,因此您可以使用资源名称和 AWS Lake Formation 中基于标签的访问控制,保护不同粒度中的数据访问,例如数据库、表、列、行和单元级访问控制。在 AWS Glue 3.0 发布时,我们还引入了新功能来改善用户在监控、调试和优化 Spark 应用程序方面的体验。Spark 3.1.1 实现了改进的 Spark UI 体验,其中包括对 AWS Glue 串流作业有用的新 Spark 执行程序内存指标Spark 结构化串流指标。与 AWS Glue 2.0 类似,AWS Glue 3.0 减少了启动延迟并缩短了整体作业完成时间。

AWS Glue 3.0 在提供 AWS Glue 的所有 AWS 区域推出。要了解有关此功能的更多信息,请参阅博客AWS Glue 用户指南