数据发现

跨所有 AWS 数据集发现和搜索数据

AWS Glue 数据目录是您所有数据资产的永久元数据存储,且无论它们位于何处都将如此。数据目录包含表定义、作业定义、Schema 和其他控制信息,以帮助您管理 AWS Glue 环境。它会自动计算统计信息并注册分区,以便经济高效地针对您的数据进行查询。它还会维护一个全面的 schema 版本历史记录,以便您可以了解您的数据如何随着时间发生变化。

自动 schema 发现

AWS Glue 抓取程序连接到您的源或目标数据存储,通过分类器的优先级列表不断更新以确定您的数据 schema,然后在 AWS Glue 数据目录中创建元数据。元数据存储在数据目录的表中,并在 ETL 任务的创建过程中使用。您可以按计划、按需运行抓取程序,也可以基于事件触发它们,以确保您的元数据是最新的。

管理和增强数据流架构

AWS Glue Schema Registry 是 AWS Glue 的无服务器功能,让您可以使用注册的 Apache Avro 架构来验证和控制流数据的演变,无需支付额外费用。通过 Apache 许可的序列化器和反序列化器,Schema Registry 与为 Apache Kafka 开发的 Java 应用程序、适用于 Apache Kafka 的 Amazon Managed Streaming (MSK)Amazon Kinesis Data Streams、Apache Flink/适用于 Apache Flink 的 Amazon Kinesis Data AnalyticsAWS Lambda 集成。当数据流处理应用程序与 Schema Registry 集成时,您可以改善数据质量并使用管辖架构发展的兼容性检查来防止出现意外更改。另外,您还可以使用存储在注册表中的架构来创建或更新 AWS Glue 表和分区。

数据转换

使用拖放式界面可视化转换数据

使用 AWS Glue Studio,您可以编写高度可扩展的 ETL 作业来进行分布式处理,而无需成为 Apache Spark 专家。在拖放作业编辑器中定义您的 ETL 过程,AWS Glue 可自动生成代码以提取、转换和加载您的数据。它使用 Scala 或 Python 语言生成代码,并针对 Apache Spark 环境对代码进行编写。

使用简单的作业计划生成复杂的 ETL 管道

AWS Glue 作业可以按计划、按需或基于事件进行调用。您可以并行启动多个作业,也可以跨作业指定依赖关系以构建复杂的 ETL 管道。AWS Glue 将处理所有的作业间依赖关系、筛选出不良数据并且在作业失败时进行重试。所有日志和通知都将推送到 Amazon CloudWatch,以便您可以从中心服务监控和获取提醒。

动态清理和转换流数据

AWS Glue 中的无服务器流 ETL 作业将持续使用流媒体源中的数据,包括 Amazon Kinesis 和 Amazon MSK,动态清理和转换数据,并在目标数据存储中在数秒钟内将其用于分析。使用此功能可以处理 IoT 事件流、点击流和网络日志等事件数据。AWS Glue 流式 ETL 作业可以丰富和聚合数据,加入批处理和流数据源,并运行各种复杂的分析和机器学习操作。

数据复制

使用 SQL 跨多个数据存储合并和复制数据

AWS Glue Elastic 视图让您可以对存储在多种 AWS 数据存储中的数据创建视图,并在您选择的目标数据存储中创建具体化视图。您可以使用 AWS Glue Elastic 视图,通过 PartiQL 语言编写查询来创建具体化视图。PartiQL 是一种兼容 SQL 的开源查询语言,可以用来查询和操作数据,无论数据是表格格式,还是类文档结构的灵活格式。您可以在 AWS 管理控制台中使用查询编辑器以交互方式编写 PartiQL 查询,也可以通过 API 或 CLI 发出查询。

AWS Glue Elastic 视图支持 Amazon DynamoDB 作为数据源(随后将支持 Amazon Aurora 和 Amazon RDS),并以 Amazon Redshift、Amazon Elasticsearch Service 和 Amazon S3 作为目标(随后将支持 Amazon Aurora、Amazon RDS 和 Amazon DynamoDB)。您可以将具体化视图与其他用户共享,以供他们在自己的应用程序中使用,从而加快开发速度。AWS Glue Elastic 视图持续监控源数据存储中的数据更改,并自动向目标数据存储提供更新。了解有关 AWS Glue Elastic 视图的更多信息。

数据准备

使用内置的机器学习消除重复数据和清理数据

AWS Glue 可帮助清理和准备好您的数据进行分析,无需您成为机器学习专家。它的 FindMatches 功能可以删除重复,并找到互相之间不完全匹配的记录。例如,使用 FindMatches 工具查找您的餐厅数据库中的重复记录,例如一条记录是位于“121 Main St.”的“Joe's Pizza”,而另一条记录是位于“121 Main”的“Joseph's Pizzeria”。FindMatches 会要求您将记录集标记为“匹配”或“不匹配”。 然后系统将会学习您将一对记录称为“匹配”的标准,并构建一个 ETL 作业,您可以使用它来查找数据库中的重复记录或匹配两个数据库中的记录。

通过开发人员终端节点编辑、调试和测试 ETL 代码

如果您选择通过交互方式开发 ETL 代码,AWS Glue 将提供开发终端节点,以供您编辑、调试和测试其为您生成的代码。您可以使用自己喜爱的 IDE 或笔记本电脑。您可以编写自定义读取器、写入器或转换程序,并将它们作为自定义库导入到 AWS Glue ETL 作业中。您还可以使用并与其他开发人员共享我们的 GitHub 存储库中的代码。

使用可视化界面标准化数据而无需编写代码

AWS Glue DataBrew 提供交互式、点击式可视化界面,使数据分析师和数据科学家等用户无需编写代码即可清理和标准化数据。您可以直接从湖内数仓、数据仓库和数据库(包括 Amazon S3、Amazon Redshift、Amazon Aurora 和 Amazon RDS)中轻松可视化、整理和标准化数据。您可以从超过 250 个内置转换中进行选择,以合并、转变和转置数据,并且可以通过将保存的转换直接应用于新传入的数据来自动执行数据准备任务。

AWS Glue 定价
访问定价页面

浏览 AWS Glue 的定价选项。

了解更多 
注册 AWS 账户
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中构建
开始在控制台中构建

在 AWS 管理控制台中,使用 AWS Glue 开始构建。

登录