投稿日: Nov 30, 2022
AWS Glue では、データレイクとデータパイプラインの品質を自動的に測定しモニタリングする新機能、AWS Glue Data Quality のプレビュー版を発表します。AWS Glue は、複数のソースからのデータの検出、準備、移動、統合を効率化する、サーバーレスでスケーラブルなデータ統合サービスです。データ品質の管理は手作業であり、時間がかかります。データ品質のルールを設定し、そのルールに基づきデータを定期的に検証し、品質が低下した場合にアラートするコードを記述する必要があります。アナリストは、データを手作業で分析し、ルールを作成し、そのルールを実装するコードを書く必要があります。
AWS Glue Data Quality は、自動的にデータを分析し、データの統計情報を収集します。推奨されるデータ品質ルールを設定し、それに基づき検証を開始します。推奨されたデータ品質ルールは変更することも、新しいルールを追加することもできます。また、データ品質が低下した場合、ユーザーに警告するアクションを設定することもできます。データ品質ルールとアクションは、データパイプライン上で AWS Glue の抽出、変換、ロード (ETL) ジョブに設定することも可能です。これらのガイドラインは、データレイクやデータウェアハウスに「品質の低い」データが侵入することを防ぐことができます。AWS Glue はサーバーレスであるため、インフラストラクチャの管理は不要であり、AWS Glue Data Quality では、オープンソースの Deequ を使用してルールを評価します。AWS は Deequ を利用してペタバイト規模のデータレイクのデータ品質を測定してモニタリングします。
AWS Glue Data Quality のプレビュー版は、米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (東京)、欧州 (アイルランド) の AWS リージョンで利用できます。
詳細については、保管中のデータおよびデータパイプラインのデータ品質に関する AWS Glue Data Quality のドキュメントをご確認ください。