为什么选择 AWS Glue?
准备数据以获得优质结果是分析或 ML 项目的第一步。AWS Glue 是一项无服务器数据集成服务,可让数据准备更简单、更快、更便宜。您可以发现并连接到 100 多个不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控 ETL 管道以将数据加载到数据湖中。借助内置的生成式人工智能功能,您可以实现 Spark 作业的现代化,并通过 ETL 创作和 Spark 故障排除的智能协助更快地进行开发。
AWS Glue 简介(01:54)
AWS Glue 的优势
工作原理
AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习(ML)和应用程序开发的工作。
-
数据集成引擎选项
-
事件驱动型 ETL
-
AWS Glue Data Catalog
-
无代码 ETL 作业
-
管理和监控数据质量
-
数据准备
-
数据集成引擎选项
-
事件驱动型 ETL
-
AWS Glue 可以在新数据到达时运行您的提取、转换、加载(ETL)作业。例如,您可以将 AWS Glue 配置为在 Amazon Simple Storage Service(S3)中有新数据可用时立即启动 ETL 作业以运行。
-
AWS Glue Data Catalog
-
您可以使用数据目录快速发现和搜索多个 AWS 数据集,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。
-
无代码 ETL 作业
-
AWS Glue Studio 可以更轻松地以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以通过拖放式编辑器构建用于移动和转换数据的 ETL 作业,AWS Glue 会自动生成代码。
-
管理和监控数据质量
-
数据准备
-
使用 AWS Glue DataBrew,您可以直接探索和试验来自数据湖、数据仓库和数据库的数据,包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon Relational Database Service (RDS)。您可以在 DataBrew 中从超过 250 个预构建的转换中进行选择,以自动执行数据准备任务、如筛选异常、标准化格式和更正无效值。
此外,AWS Glue Studio 还提供数据准备工具,让您可以通过一个交互式、点击式的可视化界面来准备数据,而不需要编写代码。
使用案例
高效发现数据
快速识别 AWS、本地和其他云端的数据,然后立即将其用于查询和转换。
交互式探索、处理数据以及对其进行实验
借助 AWS Glue 交互式会话,数据工程师可以使用其选择的集成开发环境 (IDE) 或笔记本,以交互方式探索和准备数据。
简化 ETL 管道管理
借助自动预置和工作线程管理,不再需要管理基础设施,并且可将所有数据集成需求合并到单一服务中。
支持各种处理框架和工作负载
更轻松地支持各种数据处理框架,例如 ETL 和 ELT,同时支持各类工作负载,包括批处理、微批处理和流式处理。
最新资讯
开始使用 Glue
找到今天要查找的内容了吗?
请提供您的意见,以便帮助我们提高网站内容的质量。