发布于: Jul 23, 2021

AWS Glue DataBrew 现在让客户可以指定在运行配置文件作业时为数据集自动生成哪些数据质量统计数据。从而,用户可以自定义数据配置文件统计数据,诸如根据其数据集的性质和大小l来确定重复值、相关性和异常值,并仅使用满足其需求的统计数据来创建自定义数据配置文件概览。

DataBrew 在可视化的配置文件控制面板上显示配置文件作业的所有统计数据,并将原始数据作为 JSON 对象存储在 Amazon S3 存储桶中。客户可以控制要显示的统计数据,持续监控传入数据的质量,并在几分钟内发现数据的变化,而无需编写任何代码。如本博文所述,客户还可以使用 DataBrew 和 AWS Lambda 来设置“自动数据质量警报”。