投稿日: Sep 8, 2022
Amazon SageMaker Canvas では、高度なビジュアライゼーションを備えた探索的データ分析 (EDA) 用の追加機能が発表されました。これにより、機械学習 (ML) モデルを構築する前に、データをより適切に探索および分析できるようになります。SageMaker Canvas はポイントアンドクリック式のビジュアルインターフェイスで、ビジネスアナリストはこれを使用することで、機械学習を使用した経験がなくても、あるいはコードを一行も書かなくても、正確な ML 予測を自分で生成することができます。
本日から、Amazon SageMaker Canvas では、モデル構築前にデータをさらに理解できるように、EDA の新しいビジュアライゼーションの提供を開始しました。このビジュアライゼーションは、データサンプリングの柔軟な粒度設定、欠損値の補完、外れ値の置換、データセットのフィルタリング、結合、変更、拡張されたタイムスタンプ形式など、Canvas によって既に提供されているデータ準備および探索用の機能一式に追加されます。ビジュアライゼーションは、データセット間の特徴の関係性を分析し、データをより適切に理解するために役立ちます。読みやすいビジュアル形式で、データを操作して、アドホッククエリでは気付きにくいインサイトを発見することができます。ビジュアライゼーションは、ML モデルを構築およびトレーニングする前に、SageMaker Canvas 内の Data Visualizer を使ってすばやく作成できます。新しいビジュアライゼーションには以下が含まれます。
- 散布図: このプロットは、データ内の異なる数値変数間の関係性を調べるために使用できます。点は 2 つの異なる数値変数の値を表しており、各点の位置はそれぞれ横軸と縦軸の特定のデータポイントの値を示します。
- 棒グラフ: このグラフは、棒で表されるカテゴリデータのセットを集約して、データを即時に比較するために使用できます。棒の高さはそれぞれ、特定のデータ集合体の割合を表します。
- 箱ひげ図: このプロットは、数値データのグループを四分位数で表します。箱ひげ図は、データの値のばらつきを判断するのに役立ちます。グラフィカルビューは、数値データの 1 つまたは複数のグループの分布を表します。