投稿日: Aug 9, 2022
Amazon SageMaker Canvas におけるデータの準備および分析の機能拡張 (不足値の置換、外れ値の置換、データセットに異なるサンプルサイズを選択できる柔軟性など) をお知らせします。Amazon SageMaker Canvas はポイントアンドクリック式のビジュアルインターフェイスで、ビジネスアナリストはこれを使用することで、機械学習 (ML) を使用した経験がなくても、あるいはコードを一行も書かなくても、正確な ML 予測を自分で生成することができます。SageMaker Canvas を使用すれば、さまざまなソースからデータにアクセスしそれらを組み合わせたり、データを自動的にクリーニングしたり、数クリックで正確な予測を生成する ML モデルを構築したり、といったことが容易に行えるようになります。
本日より、SageMaker Canvas では、不足値を置換してデータをさらに迅速に準備したり、データの外れ値を置換してさらに正確な ML モデルを構築したりできるようになり、より迅速なデータ分析のためにデータセットサンプルのサイズを選択できる柔軟性も備えています。
不足値を置換する: 不足値はデータセットではよく発生し、ML モデルの精度に影響を与える可能性があります。SageMaker Canvas のこの新しい機能は、データセットをそのまま維持しながら、カスタム値を用いたデータの不足値の置換 (補完) およびより迅速なデータの準備を支援します。例えば、データの平均値または中央値、もしくはカスタム値を用いて、数字の列の不足値を置換できます。これにより、データは ML モデルを構築する前に準備されます。
外れ値を置換する: データの範囲にある外れ値またはまれな値は、ML モデルを構築する大きな分散またはバイアスになる可能性があります。SageMaker Canvas では、数字の列で外れ値を検出できるようになり、特定の範囲内にある値で置換する手助けをします。標準偏差またはカスタム範囲のいずれかを選択し、この指定された範囲の最小値と最大値を用いて外れ値を置換できます。
データセットサンプルのサイズを選択する: SageMaker Canvas では、データセットサンプルのサイズを選択して、データの分析を向上させることができるようになりました。サンプリングは、正確なデータ分析を可能にして ML モデルを構築しながら、管理可能な少量のデータを使用することにより、大きなデータセットのパターンとトレンドを特定する統計的な技術です。SageMaker Canvas は、データに対するより迅速なインサイトを可能にするランダムサンプリングメソッドを使用します。デフォルトでは、Canvas はデータセットから 20,000 行のサンプルサイズを使用します。現在では、データセットのサイズに応じて 500~40,000 行の範囲で選択でき、柔軟に制御できるようになりました。