发布于: Aug 16, 2021
Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流程的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。从今天开始,您可以使用 Amazon SageMaker Data Wrangler 的新功能更轻松、更快速地为 ML 准备数据,这些功能包括:多重共线性检测、轻松地将结果导出到 Amazon S3、列分隔符支持,以及在您选择的不同数据集上重复使用相同 SageMaker Data Wrangler 流的功能。
当数据集中的两个或更多功能相互之间高度相关时,发生多重共线性。检测数据库中是否存在多重共线性非常重要,因为多重共线性可能会妨碍 ML 模型的性能。从今天开始,您可以在 Amazon SageMaker Data Wrangler 内使用三种新诊断可视化功能帮助检测数据集中的多重共线性。第一种可视化允许您绘制数据集中的变化膨胀因子 (VIF)。数据中的高 VIF 可指示存在多重共线性。第二种可视化使用主成分分析 (PCA) 和奇异值分解 (SVD) 来计算奇异值。数据集中的奇异值分布高度不均匀也可指示多重共线性。最后,第三种可视化使用 LASSO(最小绝对收缩和选择算子),它绘制从使用您的数据训练的 LASSO 模型中获得系数值。系数值接近零的变量可能多余,并且可能对 ML 模型的性能没有显著贡献。
从今天开始,您还可以通过几次单击就轻松地导出准备的数据。Amazon SageMaker Data Wrangler 的新导出功能提供了使用按钮导出数据的导出体验。您只需要从准备选项卡中单击 Export Data(导出数据),并指定您要将结果存储到的 Amazon S3 位置。然后,结果将直接导出到 S3,可供您在其他 ML 应用程序中使用。此外,现在您还可以导入各种分隔格式的数据,包括逗号分隔、制表符分隔、管道分隔、分号分隔和冒号分隔数据格式。最后,现在您可以更改在 SageMaker Data Wrangler 数据流中使用的数据集。您只需在数据视图中单击源节点,然后选择 Edit dataset(编辑数据集),即可修改在 SageMaker Data Wrangler 流文件中使用的源数据。