AWS Glue Data Quality

データレイクとパイプライン全体で高品質なデータを提供

データレイクは、適切な監視なしではデータの沼地になる可能性があります。データ品質チェックの設定は時間がかかり、面倒で、間違いも起こりやすいです。データ品質ルールを手動で作成し、データパイプラインを監視し、データ品質が低下したときにデータ利用者に警告するコードを記述する必要があります。AWS Glue Data Quality は、手動で行うこのような品質作業を数日から数時間に短縮します。統計情報を自動的に計算し、品質ルールを推奨し、監視し、問題を検出すると警告します。見えない問題や見つけにくい問題については、Glue Data Quality は ML アルゴリズムを使用します。ルールベースのアプローチと機械学習のアプローチを組み合わせることで、サーバーレスでスケーラブルでオープンなソリューションにより、質の高いデータを提供して自信を持ってビジネス上の意思決定を行うことができます。 

AWS Glue Data Quality の概要 (1:27)

AWS Glue Data Quality の特徴

AWS Glue はサーバーレスであるため、インフラストラクチャを管理することなくスケーリングできます。あらゆるデータサイズに対応し、従量制料金を採用しているため、俊敏性が向上し、コストが削減されます。AWS Glue Data Quality は、ペタバイト規模のデータセットを管理するために Amazon が構築したオープンソースフレームワークである Deequ を使用しています。オープンソースを使用して構築されているため、AWS Glue Data Quality はロックインのない柔軟性と移植性を提供します。
AWS Glue Data Quality は、データセットの統計を自動的に計算します。このような統計を用いて、鮮度、正確性、および完全性をチェックする一連の品質ルールを推奨します。必要に応じて、推奨されるルールを調整したり、ルールを破棄したり、新しいルールを追加したりできます。品質の問題が検出された場合、AWS Glue Data Quality も警告を発して、ユーザーが対応できるようにします。
AWS Glue Data Quality はインテリジェントです。ML アルゴリズムを使用して、時間の経過とともに収集されたデータ統計のパターンを学習します。異常、異常なデータパターンを検出し、ユーザーに警告します。また、これらの特定のパターンを監視するルールが自動作成されるため、データ品質ルールを段階的に構築できます。
データはさまざまなリポジトリに保存され、あるリポジトリから別のリポジトリに移動します。受信時と転送中の両方でデータ品質を監視することが重要です。AWS Glue Data Quality ルールは、データセットやデータレイクの保管中のデータ、およびデータが移動しているデータパイプライン全体に適用できます。ルールは複数のデータセットに適用できます。AWS Glue Studio で構築されたデータパイプラインの場合、変換を適用してパイプライン全体の品質をわずかなコストで評価できます。データはすでにメモリにあるためです。品質が低下した場合にパイプラインを停止するルールを定義して、不良データがデータレイクに到達するのを防ぐこともできます。
25 種類以上の AWS Glue データ品質ルールを使用してデータを検証し、問題の原因となる特定のデータを特定します。既成のルールを使用して、さまざまなデータソース内のさまざまなデータセットを数分で比較するデータ品質チェックを実装します。Glue ETLを使用すると、これらの問題を簡単に修正し、高品質のデータをデータリポジトリに取り込むことができます。