AWS Glue
AWS 云
开始使用 AWS Glue

AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,让客户能够轻松准备和加载数据进行分析。您只需在 AWS 管理控制台中单击几次,即可创建并运行 ETL 作业。您只需将 AWS Glue 指向存储在 AWS 上的数据,AWS Glue 便会发现您的数据,并将关联的元数据 (例如表定义和架构) 存储在 AWS Glue 数据目录中。存入目录后,您的数据可立即供 ETL 搜索、查询和使用。AWS Glue 可生成代码执行数据转换和数据加载流程。

AWS Glue 可生成可自定义、可重复使用且可移植的 Python 代码。ETL 作业准备就绪后,您便可以安排它在 AWS Glue 完全托管的横向扩展 Apache Spark 环境中运行。AWS Glue 可提供一个具有依赖关系解析、作业监控和警报功能的灵活计划程序。

AWS Glue 没有服务器,因此无需购买、设置或管理基础设施。它会自动预配置完成作业所需的环境,客户只需为运行 ETL 作业期间使用的计算资源付费。使用 AWS Glue,数据在几分钟内即可用于分析。

AWS Glue
1:47
无服务器、完全托管且云优化的 ETL 服务

准备好开始使用 ETL 了吗?

开始使用 AWS Glue


简单

简单

AWS Glue 可自动执行构建、维护和运行 ETL 作业的大部分工作。AWS Glue 可爬取您的数据源,识别数据格式,并提供架构和转换建议。AWS Glue 可自动生成代码来执行数据转换和加载流程。

集成

集成

AWS Glue 能够与多种 AWS 产品进行集成。AWS Glue 为以下位置存储的数据提供本地支持:Amazon Aurora、Amazon RDS for MySQL、Amazon RDS for Oracle、Amazon RDS for PostgreSQL、Amazon RDS for SQL Server、Amazon Redshift 和 Amazon S3,以及 Amazon EC2 上运行的 Virtual Private Cloud (Amazon VPC) 中的 MySQL、Oracle、Microsoft SQL Server 和 PostgreSQL 数据库。AWS Glue 可与 Amazon Athena、Amazon EMR、Amazon Redshift Spectrum 以及任何 Apache Hive Metastore 兼容的应用程序进行开箱即用的集成。

无服务器

无服务器

AWS Glue 没有服务器,因此无需预配置或管理基础设施。AWS Glue 可处理在完全托管的横向扩展 Apache Spark 环境中运行 ETL 作业时所需资源的预配置、配置和扩展工作。您只需为运行作业期间使用的资源付费。

开发人员友好

开发人员友好

AWS Glue 使用常用的 Python 和 Spark 技术生成可自定义、可重复使用且可移植的 ETL 代码。您也可以将自定义读取程序、写入程序和转换程序导入 Glue ETL 代码。由于 AWS Glue 生成的代码以开放式框架为基础,所以并未锁定,您可以在任何地方进行使用。


步骤 1:构建数据目录
步骤 1:构建数据目录

单击可放大

首先,使用 AWS 管理控制台注册您的数据源。AWS Glue 将爬取您的数据源,并使用适用于多种常见源格式和数据类型 (包括 JSON、CSV、Parquet 等) 的预构建分类器来构建您的数据目录。

步骤 2:生成和编辑转换
步骤 2:生成和编辑转换

单击可放大

接下来,选择数据源和数据目标。AWS Glue 将生成使用 Python 语言的 ETL 代码,从源中提取数据,并转换数据以匹配目标架构,然后将其加载到目标中。您可以在喜爱的 IDE 中通过控制台或任意笔记本编辑、调试和测试此代码。

步骤 3:安排和运行作业
步骤 3:安排和运行作业

单击可放大

AWS Glue 可轻松安排重复的 ETL 作业,将多个作业串联在一起,或从其他服务 (如 AWS Lambda) 中按需调用作业。AWS Glue 可管理各作业之间的依赖关系,自动扩展底层资源,并在作业失败时重试。

请访问 AWS Glue 产品详情页面,或参阅我们的产品文档了解更多信息。


您可以通过使用 AWS Glue 清理、规范化和丰富数据集,来准备点击流数据或流程日志数据进行分析。AWS Glue 可为您的半结构化数据生成架构,创建 ETL 代码来转换、压平和丰富数据,并重复加载数据仓库。

准备并加载数据进行分析

您可以使用 AWS Glue 数据目录跨多个 AWS 数据集快速发现和搜索数据,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。

构建统一的数据视图

数据湖是存储和分析结构化和非结构化数据的一种日趋流行的方式。如果您使用 Amazon S3 数据湖,那么 AWS Glue 可以使您的所有数据无需移动即可直接用于分析。Glue 爬取器可以扫描您的数据湖,并将 Glue 数据目录与底层数据保持同步。然后,您就可以使用 Amazon Athena 和 Amazon Redshift Spectrum 直接查询您的数据湖。对于在 Amazon EMR 上运行的大数据应用程序,您也可以将 Glue 数据目录作为外部 Apache Hive Metastore 使用。

构建统一的数据视图

AWS Glue 可以基于事件运行 ETL 作业,如获取新的数据集。例如,新数据在 Amazon S3 中可用后,您可以使用 AWS Lambda 函数来触发 ETL 作业,使其运行。您也可以在 AWS Glue 数据目录中将这个新的数据集注册为 ETL 作业的一部分。

新数据出现时自动运行 ETL 作业

AWS Glue 非常容易上手。只需登录 AWS 管理控制台,然后导航至“分析”类别下的“Glue”即可。

准备好开始使用 ETL 了吗?

开始使用 AWS Glue