Publié le: Oct 2, 2023

AWS annonce la disponibilité générale d'AWS Glue Data Quality dans les régions AWS GovCloud (US, côte est et US, côte ouest). Glue Data Quality mesure et surveille automatiquement la qualité des données dans les référentiels de données et dans les pipelines ETL AWS Glue. AWS Glue est un service évolutif d'ETL (extraction, transformation et chargement) et d'intégration des données sans serveur qui facilite la recherche, la préparation, le transfert et l'intégration des données en provenance de sources multiples.

En analysant automatiquement vos données afin de recueillir des statistiques, la fonctionnalité Qualité des données d'AWS Glue contribue à réduire la nécessité de contrôler manuellement la qualité des données. Elle utilise la bibliothèque open source Deequ pour évaluer les règles et analyser la qualité des données figurant dans des lacs de données de plusieurs pétaoctets. Cette fonctionnalité vous recommande ensuite des règles de qualité des données à appliquer dans un premier temps. Vous pouvez modifier les règles recommandées ou en ajouter de nouvelles. Si la qualité des données se détériore, vous pouvez configurer des actions visant à alerter les utilisateurs et à explorer la cause initiale du problème. Les règles et les actions relatives à la qualité des données peuvent également être configurées sur les pipelines de données AWS Glue, afin d'empêcher les « mauvaises » données d'entrer dans les lacs de données et les entrepôts de données.

Grâce à cette disponibilité générale, les clients peuvent désormais gérer la qualité des données dans les régions AWS GovCloud (US). Pour en savoir plus, consultez la page AWS Glue Data Quality.