投稿日: Feb 11, 2021
AWS Glue DataBrew でプロファイルジョブを実行して 40 以上のデータ品質統計 (列レベルのカーディナリティ、数値的相関、一意の値、標準偏差など) を自動生成する際、分析するデータセットのサイズを設定できるようになりました。この機能を使用して、非常に大きいデータセットの場合に x% のデータにプロファイルを実行することや、データセットのサブサンプルにフォーカスして結果をすばやく取得することができます。
プロファイルジョブで分析の実行が完了したら、DataBrew コンソールのビジュアルプロファイルダッシュボードにすべての統計が表示され、未処理の統計が JSON オブジェクトとして Amazon S3 バケットに保存されます。この機能により、受信データの品質の長期的なモニタリング、データの予期しない変更や望ましくない変更の検出、自動データ品質アラートのセットアップを行うことができます。従来は数時間、数日、または数週間を要していたセットアップは数分で完了し、コードを記述する必要もありません。
開始するには、AWS マネジメントコンソールにアクセスするか、またはノートブック環境に DataBrew プラグインをインストールして、DataBrew のドキュメントをご参照ください。