集成式数据目录

AWS Glue 数据目录是您所有数据资产的永久元数据存储,且无论它们位于何处都将如此。数据目录包含表定义、任务定义和其他控制信息,以帮助您管理 AWS Glue 环境。它会自动计算统计信息并注册分区,以便经济高效地针对您的数据进行查询。它还会维护一个全面的 schema 版本历史记录,以便您可以了解您的数据如何随着时间发生变化。

自动 schema 发现

AWS Glue 抓取程序连接到您的源或目标数据存储,通过分类器的优先级列表不断更新以确定您的数据 schema,然后在 AWS Glue 数据目录中创建元数据。元数据存储在数据目录的表中,并在 ETL 任务的创建过程中使用。您可以按计划、按需运行抓取程序,也可以基于事件触发它们,以确保您的元数据是最新的。

代码生成

AWS Glue 可自动生成代码以提取、转换和加载您的数据。只需将 AWS Glue 指向您的数据源和目标,AWS Glue 就会创建 ETL 脚本来转换、合并和丰富您的数据。它使用 Scala 或 Python 语言生成代码,并针对 Apache Spark 环境对代码进行编写。

开发人员终端节点

如果您选择通过交互方式开发 ETL 代码,AWS Glue 将提供开发终端节点,以供您编辑、调试和测试其为您生成的代码。您可以使用自己喜爱的 IDE 或笔记本电脑。您可以编写自定义读取器、写入器或转换程序,并将它们作为自定义库导入到 AWS Glue ETL 作业中。您还可以与其他开发人员一起使用和共享我们的 GitHub 存储库中的代码。

灵活的任务调度程序

AWS Glue 任务可以按计划、按需或基于事件进行调用。您可以并行启动多个作业,也可以跨作业指定依赖关系以构建复杂的 ETL 管道。AWS Glue 将处理所有的作业间依赖关系、筛选出不良数据并且在作业失败时进行重试。所有日志和通知都将推送到 Amazon CloudWatch,以便您可以从中心服务监控和获取提醒。

Product-Page_Standard-Icons_01_Product-Features_SqInk
访问定价页面

浏览 AWS Glue 的定价选项。

了解更多 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
开始在控制台中构建

在 AWS 管理控制台中,使用 AWS Glue 开始构建。

登录