投稿日: Nov 30, 2022
Amazon SageMaker Data Wrangler は、これまで機械学習 (ML) 用データの集計と準備に要していた時間を数週間から数分に短縮します。Data Wrangler を使用すると、データ準備のプロセスと特徴量エンジニアリングを簡素化し、データの選択、可視化、クレンジング、準備などのデータ準備ワークフローの各ステップをローコードのビジュアルインターフェイスから行うことができます。ML 実践者の多くは、ノートブックでデータセットを直接探索して、欠落した情報、極値、ゆがんだデータセット、バイアスなどの潜在的なデータ品質の問題を特定して修正し、ML モデルのトレーニング用にデータを短時間で準備したいと考えています。しかし、ML 実践者は、潜在的な問題を特定し修正するために、データセットのさまざまな要素を可視化し調査する定型のコードを記述するのに何週間も費やすことがあります。
Data Wrangler では、本日より Amazon SageMaker Studio ノートブックに組み込まれたデータ準備機能を提供します。この機能により ML 実践者は、直接ノートブックで数回クリックするだけで、データの特性を視覚的に確認し、問題を特定し、データ品質の問題を修正できます。ユーザーがノートブックにデータフレーム (表形式データ) を表示すると、SageMaker Studio ノートブックは、ユーザーがデータの分布パターンを理解し、不正確なデータ、欠損データ、異常値などの潜在的問題を特定できるように自動的にチャートを生成し、それらの問題を解決するためのデータ変換を提案します。また、アンバランスなデータやデータタイプの混在など、ML モデルの性能に影響を与えるターゲット列のデータ品質の問題をユーザーが特定し、修正するためのデータ変換を提案する機能も新たに加わりました。ML 実践者がデータ変換を選択すると、SageMaker Studio ノートブックは、対応するコードをノートブック内に生成するため、ノートブックを実行するたびにそのデータ変換を繰り返し適用できるようになります。
この機能は、現在 SageMaker Studio ノートブックがサポートしているすべてのリージョンで、追加料金なしで一般提供されています。