投稿日: Dec 14, 2022

本日、Amazon SageMaker Data Wrangler で特徴レベルの可視化を自動生成できるようになったことを発表します。Amazon SageMaker Data Wrangler は、機械学習 (ML) 用データの集約と準備に要する時間を、数週間から数分に短縮します。Data Wrangler を使用することで、データの準備と特徴量エンジニアリングのプロセスを簡素化し、データの選択、クレンジング、調査、可視化といったデータ準備ワークフローの各ステップを、単一のビジュアルインターフェイスで実行できるようになります。Data Wrangler には、ヒストグラム、散布図、テーブルの要約などの一般的なデータ可視化方法から、時系列データ、データ漏えい、特徴バイアスに対する異常検出や季節的傾向分解などの高度な可視化方法に至るまで、機械学習のニーズに合わせて設定可能な可視化オプションが多く用意されています。 

本日より、SageMaker Data Wrangler はデータセット内の各特徴の可視化を自動生成できるようになりました。データセットをインポートすると、データセットの各列の上部に可視化が表示されます。この自動化により、特徴レベルでのデータ分布とデータ品質に関するインサイトが自動的に生成されるため、データサイエンティストにとって画一的で手間のかかる作業がさらに削減されます。 

自動的に生成された可視化により、コードを 1 行も記述することなく、データ分布とデータタイプに関するインサイトをすぐに得ることができます。このインサイトは、データセット内の各列について、外れ値、欠損値や無効な値などのデータ品質問題を簡単に検出するのに役立ちます。さらに、可視化にカーソルを合わせると、カウントやパーセンテージなどの詳細な統計情報を表示することもできます。  

これらの機能は、Data Wrangler が現在サポートしているすべての AWS リージョンにおいて、追加料金なしで一般提供されており、自動的に有効になります。 詳細については、AWS ニュースブログ、および SageMaker Data Wrangler の製品ドキュメントをご覧ください。