在 Amazon SageMaker Data Wrangler 中使用 PCA 进行降维

发布于: Oct 21, 2022

今天，我们很高兴地宣布支持在 Amazon SageMaker Data Wrangler 中使用主成分分析 (PCA) 进行降维。Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 Data Wrangler，您可以简化数据准备和特征工程的过程，并从单个直观的界面完成数据准备工作流的每个步骤，包括数据选择、清理、探索和可视化等。PCA 是一种常用的分析技术，用于分析每次观测包含大量维度的大型数据集；它也是一种很有用的统计技术，可用于进行数据集降维，还能与 XgBoost 和随机森林等热门的 ML 算法配合使用。以前，要对数据集执行 PCA，数据科学家必须找到合适的库并编写代码来减少高维数据。

Data Wrangler 提供 PCA 支持后，现在您只需单击几下即可轻松对高维数据集进行降维操作。您可以从“添加步骤”工作流中选择“降维”来访问 PCA。使用内置列选择器，您可以轻松自动选择所有数值列，并指定要保留的主要分量的数量。或者，您可以指定适当的方差阈值百分比，Data Wrangler 将自动确定要保留在已转换数据集内的适当数量的分量。

此功能已在 Data Wrangler 目前支持的所有 AWS 区域全面推出，不额外收费。要开始使用 SageMaker Data Wrangler 计划数据处理作业，请阅读 AWS 文档。

在 Amazon SageMaker Data Wrangler 中使用 PCA 进行降维

终止对 Internet Explorer 的支持