AWS Glue 数据质量自动监测功能

在数据湖和管道中提供高质量数据

如果没有适当的监督,数据湖可能会变成数据沼泽。设置数据质量检查既耗时又繁琐,而且容易出错。您必须手动创建数据质量规则并编写代码来监控数据管道,并在数据质量下降时提醒数据使用者。AWS Glue 数据质量自动监测功能将这些手动质量工作从几天减少到几小时。它会自动计算统计数据、推荐质量规则、进行监控并在检测到问题时提醒您。对于隐藏和难以发现的问题,Glue 数据质量自动监测功能将使用机器学习算法。将基于规则的方法和机器学习方法以及无服务器、可扩展和开放的解决方案结合使用所产生的强大力量,使您能够提供高质量的数据,从而自信地做出业务决策。 

AWS Glue 数据质量自动监测功能概述(1:27)

AWS Glue 数据质量自动监测功能

AWS Glue 无服务器,因此您可以在不必管理基础设施的情况下进行扩展。它可根据任何数据大小进行扩展,并具有按需付费的计费功能,以提高灵活性并改善成本。AWS Glue Data Quality 使用 Deequ,这是一个由 Amazon 构建的开源框架,用于管理 PB 级数据集。由于 AWS Glue 数据质量自动监测功能是使用开源代码构建的,因此它提供了灵活性和便携性,无需锁定。
AWS Glue Data Quality 自动为您的数据集计算统计数据。它使用这些统计数据来推荐一套质量规则,以检查新鲜度、准确度、完整性,甚至是难以发现的问题。您可以根据需要调整推荐规则、放弃规则或添加新规则。如果检测到质量问题,AWS Glue 数据质量自动监测功能也会提醒您,以便您采取行动。
AWS Glue 数据质量自动监测功能非常智能。它学习使用 ML 算法随时间推移收集的数据统计数据模式。它可以检测异常、异常数据模式并提醒用户。它还会自动创建规则来监控这些特定模式,以便您可以逐步构建数据质量规则。
您的数据存放在不同的存储库中,并且会从一个存储库移动到另一个存储库。在数据到达和传输过程中监控数据质量非常重要。AWS Glue 数据质量自动监测功能规则可以应用于数据集和数据湖中的静态数据,也可以应用于移动数据的整个数据管道。您可以将规则应用于多个数据集。对于基于 AWS Glue Studio 构建的数据管道,您可以应用转换来评估整个管道的质量,由于数据已经在内存中,所以只需要成本的一小部分。您还可以定义规则,在质量恶化时停止管道,防止错误的数据进入数据湖。
使用超过 25 条现成的 AWS Glue 数据质量自动监测功能来验证您的数据并识别导致问题的特定数据。实施数据质量监测,使用现成的规则在几分钟内比较不同数据来源中的不同数据集。使用 Glue ETL,您可以轻松修复这些问题并将高质量数据提取到数据存储库中。