亚马逊AWS官方博客

AWS Glue 版本 2.0 采用快 10 倍的作业启动时间和 1 分钟最低计费持续时间

AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,可让客户更轻松地准备和加载数据以进行分析。Glue 是一项“无服务器”服务,您无需预置或管理任何资源,并且只需在 Glue 有效运行时为资源付费。

AWS Glue 版本 2.0 现已全面推出,它采用 Spark ETL 作业,其启动时间快 10 倍。启动延迟降低缩短了作业的整体完成时间,支持客户进行微批处理和时间敏感型工作负载,并且它支持交互式脚本开发和数据探索,从而提高了企业生产力。

AWS Glue 版本 2.0 采用快 10 倍的 Spark ETL 作业启动时间,现已全面推出。借助 Glue 版本 2.0,作业启动延迟更加可预测,并且开销更小。此外,AWS Glue 版本 2.0 Spark 作业将按 1 秒增量计费,最低计费持续时间降低了 10 倍 — 从最低 10 分钟降至最低 1 分钟。因此,客户现在可以更加经济高效地运行微批处理、截止日期敏感型的交互式工作负载。客户可以运行微批处理作业,以快速加载数据湖、数据仓库和数据库,并支持实时分析。通过缩短作业启动时间,客户可以更可靠地运行 SLA 驱动型数据管道。更快的作业启动时间同样也支持交互式数据探索和实验。Glue 版本 2.0 还提供了从 wheel 文件或从存储库安装 Python 模块的新功能。

工作原理

让我们了解一下它是如何在 AWS 管理控制台上工作的。您可以非常轻松地从此新功能中受益 — 您可以创建新的 Glue Spark ETL 作业或者按照如下所示将现有 Glue Spark ETL 作业迁移至 Glue 版本 2.0。

我创建了一个简单的 Glue 作业,用于复制不同 Amazon S3 存储桶中的 .csv 文件。

Glue 版本 1.0

Glue 版本 2.0

您可以看到 Glue 版本 2.0 的启动时间快 10 倍。

现已推出

此功能现已在美国东部(弗吉尼亚北部、俄亥俄、加利福尼亚北部和俄勒冈)、欧洲(法兰克福、爱尔兰、伦敦、巴黎和斯德哥尔摩)、亚太地区(香港、孟买、首尔、新加坡、悉尼和东京)、加拿大(中部)、中东(巴林)和南美洲(圣保罗)推出。请查看我们的最新文档定价页面,以了解更多详细信息。

– Kame;