投稿日: Sep 20, 2023

AWS Glue Data Quality は、CustomSQL ルールタイプで不合格となったレコードを特定できるようになりました。これにより、問題のあるレコードを正常なレコードから分離して、高品質なデータのみをデータレイクとデータウェアハウスに供給できるようになりました。

AWS Glue Data Quality は自動的に統計を計算し、品質ルールを推奨し、データ品質をモニタリングし、品質の低下を検出するとユーザーに警告します。お客様は、25 種類以上の定義済みデータ品質ルールタイプを使用してルールを作成し、問題のあるデータを特定して対処できます。これらのルールタイプの 1 つが CustomSQL ルールタイプです。このルールタイプのおかげで、SQL を利用して複雑なビジネスルールを作成し、品質上の問題を特定できます。これまでは CustomSQL ルールタイプを使用しても、問題のあるレコードが存在することは識別できても、具体的にそのレコードを特定することはできませんでした。今回の新しいリリースによって、CustomSQL ルールタイプを使用すれば、ルールの不合格の原因となっている特定のレコードを特定し、そのレコードにフラグを付けて分離できるようになりました。この機能により、SQL で堅牢なビジネスルールを作成し、問題のあるレコードを検出して分離し、データリポジトリに高品質なデータのみを供給できるようになります。

詳しくは、こちらのドキュメントおよびブログ記事をご覧ください。

この機能は、AWS Glue が利用できるすべての商用 AWS リージョンで利用可能です。