AWS Glue Data Quality

データレイクとパイプライン全体で高品質なデータを提供

データレイクは、適切な監視なしではデータの沼地になる可能性があります。データ品質チェックの設定は時間がかかり、面倒で、間違いも起こりやすいです。データ品質ルールを手動で作成し、データパイプラインを監視し、データ品質が低下したときにデータ利用者に警告するコードを記述する必要があります。AWS Glue Data Quality は、手動で行うこのような品質作業を数日から数時間に短縮します。統計情報を自動的に計算し、品質ルールを推奨し、監視し、問題を検出すると警告します。見えない問題や見つけにくい問題については、Glue Data Quality は ML アルゴリズムを使用します。ルールベースのアプローチと機械学習のアプローチを組み合わせることで、サーバーレスでスケーラブルでオープンなソリューションにより、質の高いデータを提供して自信を持ってビジネス上の意思決定を行うことができます。 

AWS Glue Data Quality の概要 (1:27)