发布于: Feb 11, 2021
在 AWS Glue DataBrew 中运行配置文件作业,自动生成 40 多种数据质量统计信息(例如列级基数、数值相关性、唯一值、标准差和其他统计信息)后,您现在可以对要分析的数据集的大小进行配置。这使得您可以自定义配置文件,以在真正大型的数据集的 x% 数据集上运行,抑或专注于数据集的子样本以获得更快的结果。
配置文件作业完成运行分析后,DataBrew 会在控制台上的可视配置文件仪表板上显示所有统计信息,并将原始统计信息作为 JSON 对象存储在 Amazon S3 存储桶中。使用此工具,您可以在一段时间内监控传入数据的质量,检测数据的意外变化或不希望发生的变化,并在几分钟内,而非几小时、几天和几周内,设置自动数据质量警报,而无需编写任何代码。
要开始使用,请访问 AWS Management Console 或在您的笔记本环境中安装 DataBrew 插件,并参阅 DataBrew 文档。