产品›
分析›
AWS Glue

使用 AWS Free Tier 免费存储 100 万个对象

AWS Glue

发现、准备和集成所有任意规模的数据

开始使用 AWS Glue

了解有关 AWS 数据集成的更多信息

为什么选择 AWS Glue？

准备数据以获得优质结果是分析或 ML 项目的第一步。AWS Glue 是一项无服务器数据集成服务，可让数据准备更简单、更快、更便宜。您可以发现并连接到 70 多个不同的数据来源，在集中式数据目录中管理您的数据，并以可视化方式创建、运行和监控 ETL 管道以将数据加载到数据湖中。

AWS Glue 简介（01:54）

工作原理

AWS Glue 是一项无服务器数据集成服务，它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习（ML）和应用程序开发的工作。

数据集成引擎选项
在 AWS Glue 中选择您喜欢的数据集成引擎来支持您的用户和工作负载。

本图显示 AWS Glue 用户如何从界面选项中进行选择，以使用多个数据集成引擎创建作业工作负载。四个部分显示：一个在左边，两个在中间，一个在右边。

左侧的第一部分称为“Data sources”。它包括以下数据来源：“Amazon S3”、“Amazon DynamoDB”、“Databases running on Amazon EC2”、“Databases”和“SaaS”。

在第一部分，有一个箭头指向图表顶部的中间部分，称为“Choice of interfaces”。第二部分包含三个项目：“AWS Glue Studio”、“Amazon SageMaker notebooks”和“Notebooks and IDEs.”

第二部分下方有一段文字，显示“Open interfaces support interactive and job workloads.” 此文本包括指向其上方先前描述的第二部分的箭头和指向其下方第三部分的箭头。

第三部分称为“Data integration engines”。文本显示“Choose a preferred serverless, scalable data processing engine with automatic scaling and pay-as-you-go pricing”。此部分包括三个引擎名称：“AWS Glue for Ray”、“AWS Glue for Python Shell”和“AWS Glue for Apache Spark”。

第四部分显示在第二部分的右侧，箭头从第二部分指向第四部分。第四部分显示“Create and load data into data lakes and data warehouses”。此部分还包括三个项目：“Amazon Redshift”、“Data lakes”和“Data warehouses”。

单击可放大
事件驱动型 ETL
AWS Glue 可以在新数据到达时运行您的提取、转换、加载（ETL）作业。例如，您可以将 AWS Glue 配置为在 Amazon Simple Storage Service（S3）中有新数据可用时立即启动 ETL 作业以运行。
AWS Glue Data Catalog
您可以使用数据目录快速发现和搜索多个 AWS 数据集，而无需移动数据。数据存入目录后，您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。
无代码 ETL 作业
AWS Glue Studio 可以更轻松地以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以通过拖放式编辑器构建用于移动和转换数据的 ETL 作业，AWS Glue 会自动生成代码。
管理和监控数据质量
AWS Glue 数据质量可自动创建、管理和监控数据质量规则，以帮助确保跨数据湖和管道的高质量数据。

该图显示了如何使用 AWS Glue 数据质量来创建规则建议、监控数据质量以及在数据质量下降时发送警报。三个部分从左至右依次显示。

第一部分描绘了 AWS Glue Data Catalog 和 AWS Glue ETL。AWS Glue Data Catalog 下方显示“Catalog all datasets in your data lakes”。 AWS Glue ETL 下方显示“Integrate and transform data from disparate data sources”。

第二部分标题为“AWS Glue Data Quality”。此部分包含三个图标。第一个图表是一张清单。它的下方显示“Data quality rule recommendations.Get started quickly with automatic data quality rule recommendations”。第二个图标是一支铅笔。它的下方显示“Preconfigured data quality rules.Edit or augment recommendations with preconfigured data quality rules”。第三个图标是一个铃铛。它的下方显示“Alerts and actions.Add alerts and actions to perform when data quality deteriorates”。

第三部分有两个堆叠的图标。第一个图标是一个条形图。它的下方显示“Metrics.Use data quality metrics to make confident business decisions”。第二个图标是一个警告标志。它的下方显示“Alerts.Use alerts to get notified when quality deteriorates, and take actions to fix the data”。

单击可放大
数据准备
使用 AWS Glue DataBrew，您可以直接探索和试验来自数据湖、数据仓库和数据库的数据，包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon Relational Database Service (RDS)。您可以在 DataBrew 中从超过 250 个预构建的转换中进行选择，以自动执行数据准备任务、如筛选异常、标准化格式和更正无效值。

使用案例

高效发现数据

Quickly identify data across AWS, on premises, and other clouds, and then make it instantly available for querying and transforming.

了解有关 AWS Glue Data Catalog 的更多信息

交互式探索、处理数据以及对其进行实验

Using AWS Glue interactive sessions, data engineers can interactively explore and prepare data using the integrated development environment (IDE) or notebook of their choice.

了解有关 AWS Glue 交互式会话的更多信息

简化 ETL 管道开发

Remove infrastructure management with automatic provisioning and worker management, and consolidate all your data integration needs into a single service.

了解有关 AWS Glue Auto Scaling 的更多信息

支持各种处理框架和工作负载

More easily support various data processing frameworks, such as ETL and ELT, and various workloads, including batch, micro-batch, and streaming.

了解有关流式传输 ETL 作业的更多信息

最新资讯

未找到任何结果

1 …

…

开始使用 Glue

免费试用 AWS Glue

使用 AWS Glue 构建

集成您的数据

浏览开发人员指南

深入了解 AWS