发布于: Mar 30, 2021
AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备和合并数据以进行分析、机器学习和应用程序开发的工作。使用 AWS Glue 工作流,可以编排和执行多作业、多爬网程序的复杂数据集成工作流。AWS Glue 自定义蓝图可让数据工程师轻松地创建可重复的 AWS Glue 工作流。
在开始使用 AWS Glue 蓝图之前,您需要确定可重复的数据集成工作流程。例如,一个 ETL 工作流将原始 S3 存储桶中的 CSV 数据转换为生产 S3 存储桶中的 Parquet 格式,并且您希望在不同的 AWS 账户中多次运行此 ETL 工作流。可以创建并注册一个接受 S3 存储桶作为输入参数的 AWS Glue 蓝图,而不必为每个 ETL 流程创建一个工作流。数据分析师只需提供输入参数(例如,数据源和目标),即可创建新的数据集成工作流。
AWS Glue 蓝图公开预览版现已在提供 AWS Glue 的所有区域推出。要了解更多信息,请访问 AWS Glue 用户指南。访问 AWS Glue 控制台以开始使用。