集成式数据目录

AWS Glue 数据目录是您所有数据资产的永久元数据存储,且无论它们位于何处都将如此。数据目录包含表定义、任务定义和其他控制信息,以帮助您管理 AWS Glue 环境。它会自动计算统计信息并注册分区,以便经济高效地针对您的数据进行查询。它还会维护一个全面的 schema 版本历史记录,以便您可以了解您的数据如何随着时间发生变化。

自动 schema 发现

AWS Glue 抓取程序连接到您的源或目标数据存储,通过分类器的优先级列表不断更新以确定您的数据 schema,然后在 AWS Glue 数据目录中创建元数据。元数据存储在数据目录的表中,并在 ETL 任务的创建过程中使用。您可以按计划、按需运行抓取程序,也可以基于事件触发它们,以确保您的元数据是最新的。

可视化 ETL 和代码生成

使用 AWS Glue Studio,您可以编写高度可扩展的 ETL 作业来进行分布式处理,而无需成为 Apache Spark 专家。在拖放作业编辑器中定义您的 ETL 过程,AWS Glue 可自动生成代码以提取、转换和加载您的数据。它使用 Scala 或 Python 语言生成代码,并针对 Apache Spark 环境对代码进行编写。

清理和删除重复数据

AWS Glue 可帮助清理和准备好您的数据进行分析,无需您成为机器学习专家。它的 FindMatches 功能可以删除重复,并找到互相之间不完全匹配的记录。例如,使用 FindMatches 工具查找您的餐厅数据库中的重复记录,例如“121 Main St.”中列出一条“Joe's Pizza”记录,然后显示“121 Main” 中的“Joseph's Pizzeria”记录。FindMatches 仅要求您将记录集标记为“匹配”或“不匹配”。然后系统将会学习您将一对记录称为“匹配”的标准,并构建一个 ETL 作业,您可以使用它来查找数据库中的重复记录或匹配两个数据库中的记录。

开发人员终端节点

如果您选择通过交互方式开发 ETL 代码,AWS Glue 将提供开发终端节点,以供您编辑、调试和测试其为您生成的代码。您可以使用自己喜爱的 IDE 或笔记本电脑。您可以编写自定义读取器、写入器或转换程序,并将它们作为自定义库导入到 AWS Glue ETL 作业中。您还可以与其他开发人员一起使用和共享我们的 GitHub 存储库中的代码。

灵活的任务调度程序

AWS Glue 任务可以按计划、按需或基于事件进行调用。您可以并行启动多个作业,也可以跨作业指定依赖关系以构建复杂的 ETL 管道。AWS Glue 将处理所有的作业间依赖关系、筛选出不良数据并且在作业失败时进行重试。所有日志和通知都将推送到 Amazon CloudWatch,以便您可以从中心服务监控和获取提醒。

无服务器流 ETL

AWS Glue 中的无服务器流 ETL 作业将持续使用流媒体源中的数据,包括 Amazon Kinesis 和 Amazon MSK,动态清理和转换数据,并在目标数据存储中在数秒钟内将其用于分析。使用此功能可以处理 IoT 事件流、点击流和网络日志等事件数据。AWS Glue 流式 ETL 作业可以丰富和聚合数据,加入批处理和流数据源,并运行各种复杂的分析和机器学习操作。

AWS Glue 定价
访问定价页面

浏览 AWS Glue 的定价选项。

了解更多 
注册 AWS 账户
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中构建
开始在控制台中构建

在 AWS 管理控制台中,使用 AWS Glue 开始构建。

登录