集成式数据目录

AWS Glue 数据目录是您所有数据资产的永久元数据存储,且无论它们位于何处都将如此。数据目录包含表定义、任务定义和其他控制信息,以帮助您管理 AWS Glue 环境。它会自动计算统计信息并注册分区,以便经济高效地针对您的数据进行查询。它还会维护一个全面的 schema 版本历史记录,以便您可以了解您的数据如何随着时间发生变化。

自动 schema 发现

AWS Glue 抓取程序连接到您的源或目标数据存储,通过分类器的优先级列表不断更新以确定您的数据 schema,然后在 AWS Glue 数据目录中创建元数据。元数据存储在数据目录的表中,并在 ETL 任务的创建过程中使用。您可以按计划、按需运行抓取程序,也可以基于事件触发它们,以确保您的元数据是最新的。

代码生成

AWS Glue 自动生成代码以提取、转换和加载您的数据。只需将 Glue 指向您的数据源和目标,Glue 就会创建 ETL 脚本来转换、合并和丰富您的数据。它使用 Scala 或 Python 语言生成代码,并针对 Apache Spark 环境对代码进行编写。

开发人员终端节点

如果您选择通过交互方式开发 ETL 代码,Glue 将提供开发终端节点,以供您编辑、调试和测试其为您生成的代码。您可以使用自己喜爱的 IDE 或笔记本电脑。您可以编写自定义读取器、写入器或转换程序,并将它们作为自定义库导入到 ETL 任务中。您还可以与其他开发人员一起使用和共享我们的 GitHub 存储库中的代码。

灵活的任务调度程序

AWS Glue 任务可以按计划、按需或基于事件进行调用。您可以并行启动多个任务,也可以跨任务指定依赖关系以构建复杂的 ETL 管道。Glue 将处理所有的任务间依赖关系、过滤不良数据并且在任务失败时进行重试。所有日志和通知都将推送到 Amazon CloudWatch,以便您可以从中心服务监控和获取警报。

了解有关 AWS Glue 定价的更多信息

访问定价页面
准备好开始构建了吗?
开始使用 AWS Glue
还有更多问题?
联系我们