データレイクとパイプライン全体で高品質なデータを提供
何十万もの顧客がデータレイクを構築していますが、データ品質がなければデータの沼地になる可能性があります。データ品質の設定は、時間のかかる退屈なプロセスです。データ品質ルールを手動で分析および作成し、品質が低下したときに警告するコードを作成する必要があります。AWS Glue Data Quality は、手動で行うこのような品質作業を数日から数時間に短縮します。AWS Glue Data Quality は、自動的に統計を計算し、品質ルールを推奨し、監視し、品質の低下を検出すると警告を発します。したがって、ビジネスに影響を与える前に欠落データ、古いデータ、または不良データを特定するプロセスが合理化されます。
主な特徴
データに合わせてカスタマイズされた自動ルール推奨事項
手動でデータを分析して品質ルールを作成する必要があるため、データ品質の作業を開始するのは難しい場合があります。AWS Glue Data Quality は、データセットの統計を自動的に計算します。このような統計を用いて、鮮度、正確性、および完全性をチェックする一連の品質ルールを推奨します。必要に応じて、推奨されるルールを調整したり、ルールを破棄したり、新しいルールを追加したりできます。品質の問題が検出された場合、AWS Glue Data Quality も警告を発して、ユーザーが対応できるようにします。
保管中およびパイプラインでのデータ品質の達成
データはさまざまなリポジトリに保存され、あるリポジトリから別のリポジトリに移動します。受信時と転送中の両方でデータ品質を監視することが重要です。AWS Glue Data Quality ルールは、データセットやデータレイクの保管中のデータ、およびデータが移動しているデータパイプライン全体に適用できます。ルールは複数のデータセットに適用できます。AWS Glue Studio で構築されたデータパイプラインの場合、変換を行って、パイプライン全体の品質を評価できます。品質が低下した場合にパイプラインを停止するルールを定義して、不良データがデータレイクに到達するのを防ぐこともできます。
ロックインのない、サーバーレスで費用対効果の高い、ペタバイト規模のデータ品質
AWS Glue はサーバーレスであるため、インフラストラクチャを管理することなくスケーリングできます。あらゆるデータサイズに対応し、従量制料金を採用しているため、俊敏性が向上し、コストが削減されます。AWS Glue Data Quality は、ペタバイト規模のデータセットを管理するために Amazon が構築したオープンソースフレームワークである Deequ を使用しています。オープンソースを使用して構築されているため、AWS Glue Data Quality はロックインのない柔軟性と移植性を提供します。
データ品質問題の理解と修正
データ品質の問題が発生した場合は、AWS Glue Data Quality を使用してデータを掘り下げて、これらの問題を評価して修正できます。このデータ品質に関するインサイトを活用して、将来的にデータを改善するための新しいルールやプロセスを導入できます。