发布于: Jun 6, 2023

AWS 宣布全面推出 AWS Glue 数据质量自动监测功能,这项功能可自动衡量和监控数据湖和数据管道质量。AWS Glue 是一项无服务器、可扩展的数据集成和 ETL(提取、转换和加载)服务,它简化了发现、准备、移动和集成来自多个来源的数据的工作。

AWS Glue 数据质量自动监测功能通过自动分析数据来收集数据统计信息,帮助减少手动数据质量工作的需求。它使用开源 Deequ 来评估规则,并衡量和监控 PB 级数据湖的数据质量。然后,它会推荐数据质量规则以开始使用。您可以更新推荐的规则或添加新规则。如果数据质量下降,您可以配置操作以提醒用户并深入了解问题的根本原因。您也可以在 AWS Glue 数据管道上配置数据质量规则和操作,以便防止“不良”数据进入数据湖和数据仓库。

随着此次正式发布,我们推出了新功能,用于识别未通过数据质量检查的特定记录,并添加了验证不同数据集之间数据一致性的新规则。现在,您可以验证在 AWS Glue Data Catalog 中编目的 Amazon Redshift、Apache Iceberg、Apache HUDI 和 Delta Lake 数据集的数据质量。AWS Glue 数据质量自动监测功能结果现已发布到 Amazon EventBridge,这不仅简化了提醒用户的方式,还将数据质量结果与其他应用程序集成在一起。这些功能可帮助您对各种数据集进行可靠的数据质量检查,并找出需要更正的问题

AWS Glue 数据质量自动监测功能现已在所有可以使用 AWS Glue 的 AWS 区域全面推出。

要了解更多信息,请访问 AWS Glue 数据质量自动监测功能