发布于: Nov 30, 2022

AWS Glue 宣布推出 AWS Glue 数据质量预览版,这项新功能可用于自动衡量和监控数据湖和数据管道质量。AWS Glue 是一项无服务器、可扩展的数据集成服务,可让您更高效地发现、准备、移动和集成来自多个来源的数据。管理数据质量涉及大量耗时的手动工作。您必须定期设置数据质量规则,并根据这些规则验证数据,还要编写代码以设置质量下降时发送的提醒。分析师必须手动分析数据,编写规则,然后编写代码以执行这些规则。 

AWS Glue 数据质量自动分析数据以收集数据统计信息。然后,它会推荐数据质量规则以开始使用。您可以使用提供的数据质量规则更新推荐规则或添加新规则。如果数据质量下降,您可以配置操作以提醒用户。还可在数据管道的 AWS Glue 提取、转换、加载 (ETL) 作业上配置数据质量规则和操作。这些指导规则可以防止“不良”数据进入数据湖和数据仓库。AWS Glue 是一项无服务器服务,因此没有需要管理的基础设施,而且 AWS Glue 数据质量使用开源 Deequ 来评估规则。AWS 使用 Deequ 衡量和监控 PB 级数据湖的数据质量。  

AWS Glue 数据质量预览版现已在如下 AWS 区域推出:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(东京)和欧洲地区(爱尔兰)。

要了解更多信息,请参阅 AWS Glue 数据质量文档,以了解静态数据和数据管道的数据质量