为什么选择 AWS Glue?
准备数据以获得优质结果是分析或 ML 项目的第一步。AWS Glue 是一项无服务器数据集成服务,可让数据准备更简单、更快、更便宜。您可以发现并连接到 70 多个不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控 ETL 管道以将数据加载到数据湖中。
AWS Glue 简介(01:54)

工作原理

AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习(ML)和应用程序开发的工作。

  • 数据集成引擎选项
  • 在 AWS Glue 中选择您喜欢的数据集成引擎来支持您的用户和工作负载。

    显示 AWS Glue 的多个数据处理引擎选项的图表。
  • 事件驱动型 ETL
  • AWS Glue 可以在新数据到达时运行您的提取、转换、加载(ETL)作业。例如,您可以将 AWS Glue 配置为在 Amazon Simple Storage Service(S3)中有新数据可用时立即启动 ETL 作业以运行。

    显示 AWS Glue 如何在新数据到达时运行您的 ETL 作业的图表。
  • AWS Glue Data Catalog
  • 您可以使用数据目录快速发现和搜索多个 AWS 数据集,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。

    显示数据目录在不移动数据的情况下发现和搜索数据集的图表。
  • 无代码 ETL 作业
  • AWS Glue Studio 可以更轻松地以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以通过拖放式编辑器构建用于移动和转换数据的 ETL 作业,AWS Glue 会自动生成代码。

    显示用户如何使用拖放编辑器来编写用于移动和转换数据的 ETL 作业的图表。
  • 管理和监控数据质量
  • AWS Glue 数据质量可自动创建、管理和监控数据质量规则,以帮助确保跨数据湖和管道的高质量数据。

    显示 AWS Glue 数据质量如何自动测量、监控和管理数据湖和数据管道中的数据质量的图表。
  • 数据准备
  • 使用 AWS Glue DataBrew,您可以直接探索和试验来自数据湖、数据仓库和数据库的数据,包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon Relational Database Service (RDS)。您可以在 DataBrew 中从超过 250 个预构建的转换中进行选择,以自动执行数据准备任务、如筛选异常、标准化格式和更正无效值。

    显示 DataBrew 如何为用户自动执行数据准备任务的图表。

使用案例

高效发现数据

Quickly identify data across AWS, on premises, and other clouds, and then make it instantly available for querying and transforming.

交互式探索、处理数据以及对其进行实验

Using AWS Glue interactive sessions, data engineers can interactively explore and prepare data using the integrated development environment (IDE) or notebook of their choice.

简化 ETL 管道开发

Remove infrastructure management with automatic provisioning and worker management, and consolidate all your data integration needs into a single service.

支持各种处理框架和工作负载

More easily support various data processing frameworks, such as ETL and ELT, and various workloads, including batch, micro-batch, and streaming.

最新资讯

  • 日期(最新到最老)
未找到任何结果
1

深入了解 AWS