投稿日: Oct 2, 2023

AWS は、AWS GovCloud (米国東部および米国西部) リージョンで AWS Glue Data Quality の一般提供を開始したことを発表しました。Glue Data Quality は、データリポジトリと AWS Glue ETL パイプライン内のデータの品質を自動的に測定および監視します。AWS Glue はサーバーレスかつスケーラブルなデータ統合と ETL (抽出、変換、ロード) サービスで、複数のソースからのデータの検出、準備、移動、統合を簡素化します。

AWS Glue Data Quality は、データを自動的に分析してデータ統計を収集することで、データ品質を支える手作業の必要性を減らすのに役立ちます。オープンソースの Deequ を使用して、ペタバイト規模のデータレイクのルールを評価し、データ品質を測定および監視します。推奨されるデータ品質ルールを設定し、それに基づき検証を開始します。推奨ルールを更新したり、新しいルールを追加したりできます。データ品質が低下した場合はユーザーに警告し、問題の根本原因を詳しく調べるアクションを設定できます。データ品質ルールとアクションは AWS Glue データパイプラインでも設定できるため、「悪い」データがデータレイクやデータウェアハウスに侵入するのを防ぐのに役立ちます。

今回の一般提供により、お客様は AWS GovCloud (米国) リージョンでデータ品質を管理できるようになりました。詳細については、AWS Glue Data Quality をご覧ください。