集成式数据目录

AWS Glue 数据目录是您所有数据资产的永久元数据存储,且无论它们位于何处都将如此。数据目录包含表定义、任务定义和其他控制信息,以帮助您管理 AWS Glue 环境。它会自动计算统计信息并注册分区,以便经济高效地针对您的数据进行查询。它还会维护一个全面的 schema 版本历史记录,以便您可以了解您的数据如何随着时间发生变化。

自动 schema 发现

AWS Glue 抓取程序连接到您的源或目标数据存储,通过分类器的优先级列表不断更新以确定您的数据 schema,然后在 AWS Glue 数据目录中创建元数据。元数据存储在数据目录的表中,并在 ETL 任务的创建过程中使用。您可以按计划、按需运行抓取程序,也可以基于事件触发它们,以确保您的元数据是最新的。

代码生成

AWS Glue 可自动生成代码以提取、转换和加载您的数据。只需将 AWS Glue 指向您的数据源和目标,AWS Glue 就会创建 ETL 脚本来转换、合并和丰富您的数据。它使用 Scala 或 Python 语言生成代码,并针对 Apache Spark 环境对代码进行编写。

清理和删除重复数据

AWS Glue 可通过提供名为 FindMatches 的机器学习转换工具来删除重复数据和发现匹配记录,帮助清理数据并做好分析准备。例如,使用 AWS Lake Formation 的 FindMatches 工具查找您的餐厅数据库中的重复记录,例如“121 Main St.”中列出一条“Joe's Pizza”记录,然后显示“121 Main” 中的“Joseph's Pizzeria”记录。您无需了解任何机器学习知识便可执行此操作。FindMatches 仅要求您将记录集标记为“匹配”或“不匹配”。然后系统将会学习您将一对记录称为“匹配”的标准,并构建一条 ML 转换,您可以使用它来查找数据库中的重复记录或匹配两个数据库中的记录。

开发人员终端节点

如果您选择通过交互方式开发 ETL 代码,AWS Glue 将提供开发终端节点,以供您编辑、调试和测试其为您生成的代码。您可以使用自己喜爱的 IDE 或笔记本电脑。您可以编写自定义读取器、写入器或转换程序,并将它们作为自定义库导入到 AWS Glue ETL 作业中。您还可以与其他开发人员一起使用和共享我们的 GitHub 存储库中的代码。

灵活的任务调度程序

AWS Glue 任务可以按计划、按需或基于事件进行调用。您可以并行启动多个作业,也可以跨作业指定依赖关系以构建复杂的 ETL 管道。AWS Glue 将处理所有的作业间依赖关系、筛选出不良数据并且在作业失败时进行重试。所有日志和通知都将推送到 Amazon CloudWatch,以便您可以从中心服务监控和获取提醒。

无服务器流 ETL

AWS Glue 中的无服务器流 ETL 操作可轻松设置连续摄取管道,从而快速准备流数据,并在数秒内完成分析。这些作业可以使用来自 Amazon Kinesis 和 Apache Kafka 等流数据源的数据,在传输过程中清理和转换这些数据流,并将结果持续加载到 Amazon S3 数据湖、数据仓库和其他数据存储中。使用此功能可以处理 IoT 事件流、点击流和网络日志等事件数据。AWS Glue 流式 ETL 作业可以丰富和聚合数据,加入批处理和流数据源,并运行各种复杂的分析和机器学习操作。

AWS Glue 定价
访问定价页面

浏览 AWS Glue 的定价选项。

了解更多 
注册 AWS 账户
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中构建
开始在控制台中构建

在 AWS 管理控制台中,使用 AWS Glue 开始构建。

登录