データクレンジングとは何ですか?
データクレンジングは、機械学習 (ML) およびビジネスインテリジェンス (BI) アプリケーション用の生データを準備するための重要なプロセスです。生データには多数のエラーが含まれている可能性があり、ML モデルの精度に影響を与え、誤った予測やビジネスに対する悪影響を生じさせる可能性があります。
データクレンジングの主なステップには、正しくないデータフィールドや不完全なデータフィールドの変更や削除、重複した情報や無関係なデータの特定と削除、書式設定、不足値、スペルミスの修正などがあります。
データクレンジングが重要なのはなぜですか?
企業がデータを利用して意思決定を行う場合、関連性があり、完全で正確なデータを利用することが重要です。ただし、データセットには、分析前に削除する必要があるエラーが含まれていることがよくあります。これらには、誤って記載された日付、通貨、他の測定単位など、予測に大きな影響を及ぼす可能性のある書式エラーが含まれる場合があります。外れ値は確実に結果を歪めるため、特に懸念されます。よく見られるその他のデータエラーには、データポイントの破損、情報の不足、誤植などがあります。クリーンなデータは、精度の高い ML モデルに役立ちます。
質の低いトレーニングデータセットを使用すると、デプロイされたモデルで誤った予測が行われる可能性があるため、ML モデルのトレーニングには、クリーンで正確なデータが特に重要です。これは、データサイエンティストが ML 用のデータの準備に多くの時間を費やす主な理由です。
データがクリーンであることを検証するにはどうすればよいですか?
データクレンジングプロセスには、問題のエントリを特定して修正するためのいくつかのステップが含まれています。最初のステップでは、データを分析してエラーを特定します。これには、ルール、パターン、および制約を使用して無効な値を識別する定性分析ツールの使用が含まれる場合があります。次のステップでは、エラーを削除または修正します。
一般的なデータクリーニングのステップには、次の修復が含まれます。
- 重複データ: 重複情報を削除する
- 無関係なデータ: 特定の分析にとって重要なフィールドを特定し、分析から無関係なデータを削除する
- 外れ値: 外れ値はモデルのパフォーマンスに大きな影響を及ぼす可能性があるため、外れ値を特定して適切なアクションを決定する
- 不足データ: 不足データにフラグを立てて削除または補完する
- 構造上のエラー: タイプミスやその他の齟齬を修正し、データを一般的なパターンや規則に準拠させる
AWS がデータクレンジングをどのようにサポートできるか
Amazon SageMaker Data Wrangler は、Amazon SageMaker の機能であり、ML 用のデータをすばやく簡単に準備することを可能にします。Amazon SageMaker Data Wrangler を使用すると、データ選択、クレンジング、探索、バイアス検出、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。
SageMaker Data Wrangler のデータ選択ツールを使用すると、さまざまなデータソースから必要なデータを選択し、シングルクリックでインポートできます。データをインポートしたら、データ品質とインサイトレポートを使用して、データ品質を自動的に検証し、重複した行やターゲットリークなどの異常を検出することができます。SageMaker Data Wrangler には 300 を超える組み込みのデータ変換が含まれているため、コードを記述しなくても、機能をすばやく正規化、変換、および結合できます。
SageMaker Data Wrangler の使用を開始するには、チュートリアルを詳しくご覧ください。