发布于: Mar 30, 2021
借助 AWS Glue DataBrew,现在可以直观地检测来自数据湖、数据仓库和其他 JDBC 可访问数据源的数据中的异常值。可以通过如下方式进一步处理异常值:使用数学和算法方法替换、删除、重新调整或标记异常值,这些数学和算法方法包括 z 得分(查找平均值的差并将其除以标准偏差)、修改后的 z 得分(计算与中位数绝对偏差之差)、四分位距(计算第一个四分位数和第三个四分位数之间的值),以及一个或多个转换(例如创建标志列、应用窗口函数或从 250 多种其他转换中选择)。
对于分析和机器学习使用案例,数据集通常包含多个异常值,这些异常值可指明宝贵的信息或由于测量和记录错误而导致的无意义偏差。在数据集中包含或排除异常值会直接影响分析或机器学习模型的结果以及基于此数据制定的决策。使用来自数据湖和数据仓库的少量数据示例时,由于无法直观地查看异常值,因此必须在代码中多次对数据进行切割以检测和处理数据中的所有异常值。而使用 DataBrew,现在不仅可以直观地预览数据集配置文件中的异常值,还可以在不编写任何代码的情况下适当地处理它们。
AWS Glue DataBrew 是一种可视化的数据准备工具,借助它,可以轻松地利用 250 多个预构建的转换来清理和规范化数据,以进行数据准备,而无需编写任何代码。
要了解更多信息,请观看此入门视频或使用示例数据集来了解 DataBrew。要开始使用,请访问 AWS 管理控制台或在您的笔记本环境中安装 DataBrew 插件,并参阅 DataBrew 文档。