发布于: Mar 5, 2021
AWS Glue DataBrew 新增了四种可视化转换,分别是划分、偏斜度、二值化和移项,数据分析师和数据科学家可以在不编写任何代码的情况下使用这些转换。
划分是用于减少较小观察误差造成的影响的数据预处理技术,您可以使用划分转换将若干个或多或少连续的值分组到较少数量的“箱”内。举例来说,如果您拥有关于一群人的信息,您可能希望将他们按年龄分入较少数量的年龄段中(如,每五年分成一组)。
偏斜度是实值随机变量关于其均值的概率分布的不对称性的度量。使用偏斜度转换,您可以改变数据的分布形状和偏斜。
二值化是将数据分为两组,然后将两个值中的一个分配给同一组的所有成员的过程。在使用二值化转换时,定义一个阈值 t 并给小于该阈值的所有数据点分配值 0,给大于该阈值的数据点分配值 1。简单举例,将图像的灰度从 0-255 色谱转换为 0-1 色谱就是二值化。它可使分类器算法在机器学习中更加高效。
移项可以将数据的行旋转为列,或者将列旋转为行。使用 DataBrew 中的移项转换,您可以通过旋转列和行来创建更整洁的可视化内容。
AWS Glue DataBrew 是一种可视化的数据准备工具,借助它,可以轻松地利用 250 多个预构建的转换来清理和规范化数据,以进行数据准备,而无需编写任何代码。要开始使用,请访问 AWS 管理控制台或在您的笔记本环境中安装 DataBrew 插件,并参阅 DataBrew 文档。