发布于: Oct 21, 2022
今天,我们很高兴地宣布支持在 Amazon SageMaker Data Wrangler 中使用主成分分析 (PCA) 进行降维。Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 Data Wrangler,您可以简化数据准备和特征工程的过程,并从单个直观的界面完成数据准备工作流的每个步骤,包括数据选择、清理、探索和可视化等。PCA 是一种常用的分析技术,用于分析每次观测包含大量维度的大型数据集;它也是一种很有用的统计技术,可用于进行数据集降维,还能与 XgBoost 和随机森林等热门的 ML 算法配合使用。以前,要对数据集执行 PCA,数据科学家必须找到合适的库并编写代码来减少高维数据。
Data Wrangler 提供 PCA 支持后,现在您只需单击几下即可轻松对高维数据集进行降维操作。您可以从“添加步骤”工作流中选择“降维”来访问 PCA。使用内置列选择器,您可以轻松自动选择所有数值列,并指定要保留的主要分量的数量。或者,您可以指定适当的方差阈值百分比,Data Wrangler 将自动确定要保留在已转换数据集内的适当数量的分量。