AWS Glue Data Quality が前処理クエリをサポート
投稿日:
2025年11月25日
本日、AWS は AWS Glue Data Quality の前処理クエリの一般提供を発表しました。これにより、AWS Glue データカタログ API を使用してデータ品質チェックを実行する前にデータを変換できるようになります。この機能により、派生列の作成、特定の条件に基づくデータのフィルター処理、計算の実行、列間の
関係の検証をデータ品質評価プロセス内で直接実行できます。
前処理クエリを使用すると、検証前にデータ変換を必要とする複雑なデータ品質シナリオの柔軟性が高まります。税金の列と配送料の列から合計手数料を計算したり、データ品質に関する推奨事項の対象となる列の数を制限したり、データセットをフィルタリングして品質チェックを特定のデータサブセットに絞り込んだりするなどの派生メトリクスを作成できます。この機能により、個別のデータ前処理ステップが不要になり、データ品質ワークフローが合理化されます。
AWS Glue Data Quality の前処理クエリは、AWS Glue Data Quality を利用できるすべての商用 AWS リージョンで、AWS Glue データカタログの API (start-data-quality-rule-recommendation-run および start-data-quality-ruleset-evaluation-run) を通じて利用できます。前処理クエリの詳細については、Glue Data Quality のドキュメントを参照してください。