AWS Glue

发现、准备和集成所有任意规模的数据

免费存储 100 万对象

工作原理

AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习(ML)和应用程序开发的工作。

  • 事件驱动型 ETL
  • AWS Glue 可以在新数据到达时运行您的提取、转换、加载(ETL)作业。例如,您可以将 AWS Glue 配置为在 Amazon Simple Storage Service(S3)中有新数据可用时立即启动 ETL 作业以运行。

    显示 AWS Glue 如何在新数据到达时运行您的 ETL 作业的图表。
  • AWS Glue Data Catalog
  • 您可以使用数据目录快速发现和搜索多个 AWS 数据集,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。

    显示数据目录在不移动数据的情况下发现和搜索数据集的图表。
  • 无代码 ETL 作业
  • AWS Glue Studio 可以更轻松地以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以通过拖放式编辑器构建用于移动和转换数据的 ETL 作业,AWS Glue 会自动生成代码。

    显示用户如何使用拖放编辑器来编写用于移动和转换数据的 ETL 作业的图表。
  • 自助式数据准备
  • 使用 AWS Glue DataBrew,您可以直接探索和试验来自数据湖、数据仓库和数据库的数据,包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon Relational Database Service(RDS)。您可以在 DataBrew 中从超过 250 个预构建的转换中进行选择,以自动执行数据准备任务、如筛选异常、标准化格式和更正无效值。

    显示 DataBrew 如何为用户自动执行数据准备任务的图表。
AWS Glue 简介(01:54)
为什么选择 AWS Glue?
准备数据以获得优质结果是分析或 ML 项目的第一步。AWS Glue 是一项无服务器数据集成服务,可让数据准备更简单、更快、更便宜。您可以发现并连接到 70 多个不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控 ETL 管道以将数据加载到数据湖中。

使用案例

简化 ETL 管道开发

借助自动预置和工作线程管理,不再需要管理基础设施,并且可将所有数据集成需求合并到单一服务中。

详细了解 AWS Glue Auto Scaling »

高效发现数据

跨多个 AWS 数据集快速识别数据,然后立即将这些数据用于查询和转换。

详细了解 AWS Glue Data Catalog »

交互式探索、处理数据以及对其进行实验

借助 AWS Glue 交互式会话,数据工程师可以使用其选择的集成开发环境 (IDE) 或笔记本,以交互方式探索和准备数据。

详细了解 AWS Glue 交互式会话 »

支持各种处理框架和工作负载

更轻松地支持各种数据处理框架,例如 ETL 和 ELT,同时支持各类工作负载,包括批处理、微批处理和流式处理。

详细了解流式传输 ETL 作业 »

如何开始

免费试用 AWS Glue

借助无服务器环境的易用性从多个源中发现、准备、移动和集成数据。

使用 AWS Glue 构建

了解如何使用 AWS Glue Studio 可视化 ETL 界面创建数据管道。

集成您的数据

按照步骤进行设置并开始使用 AWS Glue。


更深入了解 AWS