发布于: Oct 2, 2023

AWS 宣布在 AWS GovCloud(美国东部和美国西部)区域全面推出 AWS Glue 数据质量自动监测功能。数据质量自动监测功能会自动衡量和监控数据存储库和 AWS Glue ETL 管道中的数据质量。AWS Glue 是一项无服务器、可扩展的数据集成和 ETL(提取、转换和加载)服务,它简化了发现、准备、移动和集成来自多个来源的数据的工作。

AWS Glue 数据质量自动监测功能通过自动分析数据来收集数据统计信息,帮助减少手动数据质量工作的需求。它使用开源 Deequ 来评估规则,并衡量和监控 PB 级数据湖的数据质量。然后,它会推荐数据质量规则以开始使用。您可以更新推荐的规则或添加新规则。如果数据质量下降,您可以配置操作以提醒用户并深入了解问题的根本原因。您也可以在 AWS Glue 数据管道上配置数据质量规则和操作,以便防止“不良”数据进入数据湖和数据仓库。

此次全面推出后,客户现在可以管理 AWS GovCloud(美国)区域的数据质量。要了解更多信息,请访问 AWS Glue 数据质量自动监测功能