为什么选择 AWS Glue?
准备数据以获得优质结果是分析或 ML 项目的第一步。AWS Glue 是一项无服务器数据集成服务,可让数据准备更简单、更快、更便宜。您可以发现并连接到 70 多个不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控 ETL 管道以将数据加载到数据湖中。
AWS Glue 简介(01:54)

工作原理

AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习(ML)和应用程序开发的工作。

  • 数据集成引擎选项
  • 在 AWS Glue 中选择您喜欢的数据集成引擎来支持您的用户和工作负载。

    显示 AWS Glue 的多个数据处理引擎选项的图表。
  • 事件驱动型 ETL
  • AWS Glue 可以在新数据到达时运行您的提取、转换、加载(ETL)作业。例如,您可以将 AWS Glue 配置为在 Amazon Simple Storage Service(S3)中有新数据可用时立即启动 ETL 作业以运行。

    显示 AWS Glue 如何在新数据到达时运行您的 ETL 作业的图表。
  • AWS Glue Data Catalog
  • 您可以使用数据目录快速发现和搜索多个 AWS 数据集,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。

    显示数据目录在不移动数据的情况下发现和搜索数据集的图表。
  • 无代码 ETL 作业
  • AWS Glue Studio 可以更轻松地以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以通过拖放式编辑器构建用于移动和转换数据的 ETL 作业,AWS Glue 会自动生成代码。

    显示用户如何使用拖放编辑器来编写用于移动和转换数据的 ETL 作业的图表。
  • 管理和监控数据质量
  • AWS Glue 数据质量可自动创建、管理和监控数据质量规则,以帮助确保跨数据湖和管道的高质量数据。

    显示 AWS Glue 数据质量如何自动测量、监控和管理数据湖和数据管道中的数据质量的图表。
  • 数据准备
  • 使用 AWS Glue DataBrew,您可以直接探索和试验来自数据湖、数据仓库和数据库的数据,包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon Relational Database Service (RDS)。您可以在 DataBrew 中从超过 250 个预构建的转换中进行选择,以自动执行数据准备任务、如筛选异常、标准化格式和更正无效值。

    显示 DataBrew 如何为用户自动执行数据准备任务的图表。

最新资讯

日期(最新到最老)
  • 日期(最新到最老)
未找到任何结果
1

深入了解 AWS