投稿日: Aug 16, 2021
Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と機能エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。本日より、Amazon SageMaker Data Wrangler の新機能を使用して、機械学習用のデータの準備をより簡単かつ迅速に行うことができます。これには、多重共線性の検出、Amazon S3 への結果の簡単なエクスポート、列区切り文字のサポート、任意のさまざまなデータセットで同じ SageMaker Data Wrangler フローを再利用する機能が含まれます。
多重共線性は、データセット内の 2 つ以上の特徴が互いに高度に相関している場合に発生します。多重共線性は機械学習モデルのパフォーマンスを妨げる可能性があるため、データセット内の多重共線性の存在を検出することは重要です。本日より、Amazon SageMaker Data Wrangler 内で 3 つの新しい診断ビジュアライゼーションを使用して、データセットの多重共線性を検出できます。1 つ目のビジュアライゼーションでは、データセットに分散拡大係数 (VIF) をプロットできます。データの VIF が高い場合は、多重共線性が存在することを示唆している可能性があります。2 つ目のビジュアライゼーションでは、主成分分析 (PCA) と特異値分解 (SVD) を使用して特異値を計算します。データセット内の特異値の非常に不均一な分布も、多重共線性を示唆している可能性があります。最後に、3 つ目のビジュアライゼーションでは、LASSO (ラッソ回帰) を使用します。これは、データでトレーニングされた LASSO モデルからの係数値をプロットします。係数値がゼロに近い変数は冗長である可能性があり、機械学習モデルのパフォーマンスに大きく影響しない可能性があります。
本日より、数回クリックするだけで、準備したデータを簡単にエクスポートすることもできます。Amazon SageMaker Data Wrangler の新しいエクスポート機能は、データをエクスポートするためのプッシュボタンエクスポートエクスペリエンスを提供します。必要なのは、準備タブから [Export Data] (データをエクスポート) をクリックして、結果を保存する Amazon S3 の場所を指定することだけです。これにより、結果は S3 に直接エクスポートされ、他の機械学習アプリケーションで使用できるようになります。さらに、コンマ区切り、タブ区切り、パイプ区切り、セミコロン区切り、コロン区切りのデータ形式など、さまざまな区切り形式でデータをインポートできるようになりました。最後に、SageMaker Data Wrangler データフローで使用されるデータセットを変更できるようになりました。データビューで送信元のノードをクリックし、[Edit dataset] (データセットを編集) を選択するだけで、SageMaker Data Wrangler フローファイルで使用されるソースデータを変更できます。