AWS Glue

简单、灵活且经济高效的 ETL

AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,让客户能够轻松准备和加载数据进行分析。您只需在 AWS 管理控制台中单击几次,即可创建并运行 ETL 作业。您只需将 AWS Glue 指向存储在 AWS 上的数据,AWS Glue 便会发现您的数据,并将关联的元数据(例如表定义和架构)存储到 AWS Glue 数据目录中。存入目录后,您的数据可立即供 ETL 搜索、查询和使用。

AWS Glue 简介 (1:47)

优势

免去很多麻烦

AWS Glue 集成了众多 AWS 服务,在刚开始使用时为您免去了很多麻烦。AWS Glue 为存储在 Amazon Aurora 及其他所有 Amazon RDS 引擎、Amazon Redshift 和 Amazon S3 中的数据,以及在 Amazon EC2 上运行的 Virtual Private Cloud (Amazon VPC) 中的常见数据库引擎和数据库内存储的数据提供原生支持。

经济高效

AWS Glue 没有服务器,因此无需预置或管理基础设施。AWS Glue 可处理在完全托管的横向扩展 Apache Spark 环境中运行 ETL 作业时所需的资源预置、配置和扩展工作。您只需为运行作业期间使用的资源付费。

功能更强大

AWS Glue 可自动执行构建、维护和运行 ETL 作业的大部分工作。AWS Glue 可抓取您的数据源,识别数据格式,并提供架构和转换建议。AWS Glue 可自动生成代码来执行数据转换和加载流程。

 

 

工作原理

选择数据源和数据目标。AWS Glue 将生成使用 Scala 或 Python 语言的 ETL 代码,从源中提取数据,并转换数据以匹配目标架构,然后将其加载到目标中。您可以在喜爱的 IDE 或任何笔记本中通过控制台编辑、调试和测试此代码。

步骤 1:构建数据目录
screenshot-glue-step1-data-catalog2b

首先,使用 AWS 管理控制台注册您的数据源。AWS Glue 将抓取您的数据源,并使用适用于多种常见源格式和数据类型(包括 JSON、CSV、Parquet 等)的预构建分类器来构建您的数据目录。

步骤 2:生成和编辑转换
screenshot-glue-step2-etl-generation4

接下来,选择数据源和数据目标。AWS Glue 将生成使用 Scala 或 Python 语言的 ETL 代码,从源中提取数据,并转换数据以匹配目标架构,然后将其加载到目标中。您可以在喜爱的 IDE 或任何笔记本中通过控制台编辑、调试和测试此代码。

步骤 3:安排和运行作业
screenshot-glue-step3-orchestration2

AWS Glue 可轻松安排重复的 ETL 作业,将多个作业串联在一起,或从其他服务(如 AWS Lambda)中按需调用作业。AWS Glue 可管理各作业之间的依赖关系,自动扩展底层资源,并在作业失败时重试。

请访问 AWS Glue 功能页面,或参阅我们的产品文档了解更多信息。

使用案例

查询 Amazon S3 数据湖

数据湖是存储和分析结构化和非结构化数据的一种日趋流行的方式。如果您构建自己的自定义 Amazon S3 数据湖,那么 AWS Glue 可以使您的所有数据无需移动即可直接用于分析。

要想在数天内构建一个安全的数据湖,请了解更多有关 AWS Lake Formation 的信息。

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

分析数据仓库中的日志数据

您可以通过使用 AWS Glue 清理、规范化和丰富数据集,来准备点击流数据或流程日志数据分析。AWS Glue 可为您的半结构化数据生成架构,创建 ETL 代码来转换、压平和丰富数据,并重复加载数据仓库。

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

跨多个数据存储的统一数据视图

您可以使用 AWS Glue 数据目录跨多个 AWS 数据集快速发现和搜索数据,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

事件驱动型 ETL 管道

AWS Glue 可以基于事件运行 ETL 作业,如获取新的数据集。例如,新数据在 Amazon S3 中可用后,您可以使用 AWS Lambda 函数来触发 ETL 作业,使其运行。您也可以在 AWS Glue 数据目录中将这个新的数据集注册为 ETL 作业的一部分。

product-page-diagram_Glue_Event-driven-ETL-Pipelines

开始使用 AWS

icon1

注册 AWS 账户

立即享受 AWS 免费套餐
icon2

通过 10 分钟教程来进行学习

通过 简单教程进行探讨和学习。
icon3

开始使用 AWS 进行构建

按照可帮助您启动 AWS 项目的分步式指南开始构建。

了解有关 AWS Glue 的更多信息

访问功能页面
准备好开始构建了吗?
开始使用 AWS Glue
还有更多问题?
联系我们