投稿日: Oct 21, 2022
Amazon SageMaker Data Wrangler で、主成分分析 (PCA) を使用した次元削減のサポートが開始されました。Amazon SageMaker Data Wrangler は、機械学習 (ML) 用データの集約と準備に要する時間を、数週間から数分に短縮します。Data Wrangler を使用することで、データの準備と特徴量エンジニアリングのプロセスを簡素化し、データの選択、クレンジング、調査、可視化といったデータ準備ワークフローの各ステップを、単一のビジュアルインターフェイスで実行できるようになります。PCA は、観測ごとに大量の次元を含む、大規模なデータセットの分析に使用される一般的な方法であり、XgBoost やランダムフォレストといった一般的な ML アルゴリズムに使用されるデータセットの、次元の削減に役立つ統計手法です。これまで、PCA をデータセットに対して実行する場合、データサイエンティストは適切なライブラリを見つけ、コードを記述して、高次元データを削減する必要がありました。
Data Wrangler で PCA がサポートされたことにより、高次元データセットの次元をわずか数クリックで簡単に削減することが可能になりました。PCA には、[Add step] (ステップを追加) ワークフローで [Dimensionality Reduction] (次元の削減) を選択すればアクセスできます。この組み込みの列セレクターにより、すべての数値列を簡単に自動選択でき、保持する主成分の数を指定可能です。必要に応じて適切な差異しきい値の割合を指定すると、変換後のデータセットに保持すべきコンポーネントの適切な数を、Data Wrangler が自動的に決定します。
この機能は、Data Wrangler が現在サポートしているすべての AWS リージョンで、追加料金なしで一般提供されています。SageMaker Data Wrangler を使用してデータ処理ジョブのスケジューリングを開始する方法については、AWS ドキュメントをご覧ください。