AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,您可以用来登记、清理和丰富数据,并可以在数据存储之间可靠地移动数据。借助 AWS Glue,您可以显着降低创建 ETL 任务所花费的费用和时间以及其复杂性。AWS Glue 属于无服务器服务,因此无需设置或管理基础设施。您仅需为运行任务时所消耗的资源付费。

准备好开始 ETL 了吗?

AWS Glue 入门
100x100_benefit_ingergration

AWS Glue 数据目录是您所有数据资产的永久元数据存储,且无论它们位于何处都将如此。数据目录包含表定义、任务定义和其他控制信息,以帮助您管理 AWS Glue 环境。它会自动计算统计信息并注册分区,以便经济高效地针对您的数据进行查询。它还会维护一个全面的架构版本历史记录,以便您可以了解您的数据如何随着时间发生变化。

100x100_benefit_automated

AWS Glue 网络爬虫连接到您的源或目标数据存储,通过分类器的优先级列表来确定数据的架构,然后在 AWS Glue 数据目录中创建元数据。元数据存储在数据目录的表中,并在 ETL 任务的创建过程中使用。您可以按计划、按需运行网络爬虫,也可以基于事件触发它们,以确保您的元数据是最新的。

100x100_benefit_code

AWS Glue 自动生成代码以提取、转换和加载您的数据。只需将 Glue 指向您的数据源和目标,Glue 就会创建 ETL 脚本来转换、合并和丰富您的数据。它使用 Scala 或 Python 语言生成代码,并针对 Apache Spark 环境对代码进行编写。

100x100_benefit_tools

如果您选择通过交互方式开发 ETL 代码,Glue 将提供开发终端节点,以供您编辑、调试和测试其为您生成的代码。您可以使用自己喜爱的 IDE 或笔记本电脑。您可以编写自定义读取器、写入器或转换程序,并将它们作为自定义库导入到 ETL 任务中。您还可以与其他开发人员一起使用和共享我们的 GitHub 存储库中的代码。

100x100_benefit_monitoring-logging

AWS Glue 任务可以按计划、按需或基于事件进行调用。您可以并行启动多个任务,也可以跨任务指定依赖关系以构建复杂的 ETL 管道。Glue 将处理所有的任务间依赖关系、过滤不良数据并且在任务失败时进行重试。所有日志和通知都将推送到 Amazon CloudWatch,以便您可以从中心服务监控和获取警报。

AWS Glue 非常容易上手。只需登录 AWS 管理控制台,然后导航至“分析”类别下的“Glue”即可。

准备好开始使用 ETL 了吗?

开始使用 AWS Glue