AWS Glue

简单、可扩展的无服务器数据准备

AWS Glue 是一项无服务器数据准备服务,可供数据工程师、提取、转换和加载 (ETL) 开发人员、数据分析师、数据科学家轻松提取、清理、丰富、标准化和加载数据。AWS Glue 可将开始分析数据所需的时间从几个月缩短到几分钟。

数据准备是一个关键但充满挑战性的过程。要使数据准备好进行分析,您首先要从各种来源中提取数据。然后,您要清理数据、将其转换为所需格式,然后再将其加载到数据库、数据仓库和湖内数仓中进行进一步分析。这些任务通常由不同的组使用不同的工具执行。

AWS Glue 为您提供可视化界面和基于代码的界面来简化数据准备。数据工程师和 ETL 开发人员通过点击几下即可使用 AWS Glue Studioo 创建、运行和监控 ETL 工作流程。数据分析师和数据科学家可以使用 AWS Glue DataBrew 以可视化方式清理和标准化数据,而无需编写代码。

AWS Glue 简介 (1:47)

优势

更快地准备数据

AWS Glue 为所有用户提供集成工具,以简化用于分析和机器学习的数据准备。您组织中的不同组可以共同准备数据,包括提取、清理、标准化、加载和运行可扩展的 ETL 工作流程。通过这种方式,您可以将开始分析数据所需的时间从几个月缩短到几分钟。

大规模自动执行

AWS Glue 可以自动执行数据准备所需的很多工作。AWS Glue 可抓取您的数据源,识别数据格式并提供存储数据的架构建议。它可以自动生成代码来运行数据转换和加载流程。您可以使用 AWS Glue 轻松运行和管理数千个 ETL 作业,以高效准备数 PB 数据进行分析和机器学习。

无需管理服务器

AWS Glue 在无服务器环境中运行 Apache Spark 和 Python。没有要管理的基础设施,且 AWS Glue 会预置、配置和扩展运行数据准备作业所需的资源。您只需为您的作业在运行时使用的资源付费。

使用案例


跨多个数据存储的统一数据视图

您可以使用 AWS Glue 数据目录跨多个 AWS 数据集快速发现和搜索数据,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。

在 AWS Glue 中创建和运行 ELT 作业

事件驱动型 ETL 管道

AWS Glue 可以在数据到达时运行您的 ETL 作业。例如,新数据在 Amazon S3 中可用后,您可以使用 AWS Lambda 函数来触发 ETL 作业,使其运行。您也可以在 AWS Glue 数据目录中将这个新的数据集注册为 ETL 作业的一部分。

事件驱动型 ETL 管道的图表

无需编码的大数据 ETL

AWS Glue Studio 便于以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以编写移动并转换数据,然后在 AWS Glue 上运行数据的 ETL 作业。您随后可以使用 AWS Glue Studio 的作业运行控制面板来监控 ETL 执行,并确保您的作业按预期运行。在此了解有关 AWS Glue Studio 的更多信息。

适用于 ETL 开发人员的 ETL 工具

自助式可视化数据准备

AWS Glue DataBrew 使您可以直接探索和试验来自湖内数仓、数据仓库和包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon RDS 在内的数据库的数据。您可以在 AWS Glue DataBrew 中从超过 250 个预构建的转换中进行选择,以自动执行数据准备任务、如筛选异常、标准化格式和校准无效值。当数据准备好后,您可以立即使用它进行分析和机器学习。在此了解有关 AWS Glue DataBrew 的更多信息。

可视化数据清理和数据标准化

新增功能

日期
  • 日期
1
AWS Glue 功能
查看 AWS Glue 的功能

详细了解 AWS Glue 的主要功能。

了解更多 
注册 AWS 账户
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中构建
开始在 AWS Glue 中构建

在 ETL 可视化界面中,使用 AWS Glue 开始构建。

登录