为什么选择 AWS Glue?
准备数据以获得优质结果是分析或 ML 项目的第一步。AWS Glue 是一项无服务器数据集成服务,可让数据准备更简单、更快、更便宜。您可以发现并连接到 70 多个不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控 ETL 管道以将数据加载到数据湖中。借助内置的生成式人工智能功能,您可以实现 Spark 作业的现代化,并通过 ETL 创作和 Spark 故障排除的智能协助更快地进行开发。
AWS Glue 简介(01:54)

AWS Glue 的优势

灵活支持 ETL、ELT、批处理、直播等,无需锁定
PB 级、按使用量付费计费、不限数据大小
支持从开发人员到企业用户的所有数据用户
在整个数据集成之旅中,从自动生成 ETL 代码到实现 Spark 作业现代化,都可以获得由人工智能提供支持的帮助。AWS Glue 提供了智能代码生成、人工智能辅助的 Spark 升级(预览版)和内置的 Spark 故障排查(预览版)。
在一项无服务器服务中提供完整的数据集成功能

工作原理

AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习(ML)和应用程序开发的工作。

  • 数据集成引擎选项
  • 在 AWS Glue 中选择您喜欢的数据集成引擎来支持您的用户和工作负载。

    显示 AWS Glue 的多个数据处理引擎选项的图表。
  • 事件驱动型 ETL
  • AWS Glue 可以在新数据到达时运行您的提取、转换、加载(ETL)作业。例如,您可以将 AWS Glue 配置为在 Amazon Simple Storage Service(S3)中有新数据可用时立即启动 ETL 作业以运行。

    显示 AWS Glue 如何在新数据到达时运行您的 ETL 作业的图表。
  • AWS Glue Data Catalog
  • 您可以使用数据目录快速发现和搜索多个 AWS 数据集,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。

    显示数据目录在不移动数据的情况下发现和搜索数据集的图表。
  • 无代码 ETL 作业
  • AWS Glue Studio 可以更轻松地以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以通过拖放式编辑器构建用于移动和转换数据的 ETL 作业,AWS Glue 会自动生成代码。

    显示用户如何使用拖放编辑器来编写用于移动和转换数据的 ETL 作业的图表。
  • 管理和监控数据质量
  • AWS Glue 数据质量可自动创建、管理和监控数据质量规则,以帮助确保跨数据湖和管道的高质量数据。

    显示 AWS Glue 数据质量如何自动测量、监控和管理数据湖和数据管道中的数据质量的图表。
  • 数据准备
  • 使用 AWS Glue DataBrew,您可以直接探索和试验来自数据湖、数据仓库和数据库的数据,包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon Relational Database Service (RDS)。您可以在 DataBrew 中从超过 250 个预构建的转换中进行选择,以自动执行数据准备任务、如筛选异常、标准化格式和更正无效值。

    此外,AWS Glue Studio 还提供数据准备工具,让您可以通过一个交互式、点击式的可视化界面来准备数据,而不需要编写代码。

    显示 DataBrew 如何为用户自动执行数据准备任务的图表。

使用案例

高效发现数据

快速识别 AWS、本地和其他云端的数据,然后立即将其用于查询和转换。

交互式探索、处理数据以及对其进行实验

借助 AWS Glue 交互式会话,数据工程师可以使用其选择的集成开发环境 (IDE) 或笔记本,以交互方式探索和准备数据。

简化 ETL 管道开发

借助自动预置和工作线程管理,不再需要管理基础设施,并且可将所有数据集成需求合并到单一服务中。

支持各种处理框架和工作负载

更轻松地支持各种数据处理框架,例如 ETL 和 ELT,同时支持各类工作负载,包括批处理、微批处理和流式处理。

最新资讯

  • 日期(最新到最老)
未找到任何结果
1

深入了解 AWS