投稿日: Mar 30, 2021
AWS Glue DataBrew を使用して、データレイク、データウェアハウス、およびその他の JDBC でアクセス可能なデータソースからのデータの外れ値を視覚的に検出できるようになりました。z スコア (平均値との差を見つけて標準偏差で割る)、修正 z スコア (中央絶対偏差との差を計算する)、四分位範囲 (第 1 四分位と第 3 四分位の間の値を計算する)、および 1 つ以上の変換 (フラグ列の作成、ウィンドウ関数の適用、または 250 を超えるその他の変換から選択する) などの数学的方法およびアルゴリズム方法を使用して、外れ値を置換、削除、再スケーリング、またはフラグ付けすることにより、さらに外れ値の処理を行うことができます。
分析および機械学習に関するユースケースの場合、データセットには、貴重な情報や測定と記録のエラーによって引き起こされた無意味な異常のいずれかを含む外れ値が含まれていることがよくあります。データセットに外れ値を含めたり除外したりすると、分析または機械学習モデルの結果と、このデータに基づいて行われる決定に直接影響を与える可能性があります。データレイクとデータウェアハウスからのデータの小さなサンプルを操作する場合、データを視覚的に確認する方法がないため、データ内のすべての外れ値を検出して処理するために、コードでデータを複数回細かく分割する必要があります。DataBrew を使用して、データセットプロファイルの外れ値を視覚的にプレビューできるだけでなく、コードを記述せずに適切に処理できるようになりました。
AWS Glue DataBrew は、事前構築済みの 250 以上の変換を使用して、コードを記述することなくデータを簡単にクリーニングし、正規化できるビジュアルデータ準備ツールです。
詳細については、この開始方法の動画を視聴するか、またはサンプルデータセットを使用して DataBrew をについての知識を深めてください。開始するには、AWS マネジメントコンソールにアクセスするか、またはノートブック環境に DataBrew プラグインをインストールして、DataBrew のドキュメントをご参照ください。