Publié le: Jun 6, 2023

AWS annonce la disponibilité générale de Qualité des données d'AWS Glue, une fonctionnalité qui évalue et contrôle automatiquement la qualité des lacs et des pipelines de données. AWS Glue est un service évolutif d'ETL (extraction, transformation et chargement) et d'intégration des données sans serveur qui facilite la recherche, la préparation, le transfert et l'intégration des données en provenance de sources multiples.

En analysant automatiquement vos données afin de recueillir des statistiques, la fonctionnalité Qualité des données d'AWS Glue contribue à réduire la nécessité de contrôler manuellement la qualité des données. Elle utilise la bibliothèque open source Deequ pour évaluer les règles et analyser la qualité des données figurant dans des lacs de données de plusieurs pétaoctets. Cette fonctionnalité vous recommande ensuite des règles de qualité des données à appliquer dans un premier temps. Vous pouvez modifier les règles recommandées ou en ajouter de nouvelles. Si la qualité des données se détériore, vous pouvez configurer des actions visant à alerter les utilisateurs et à explorer la cause initiale du problème. Les règles et les actions relatives à la qualité des données peuvent également être configurées sur les pipelines de données AWS Glue, afin d'empêcher les « mauvaises » données d'entrer dans les lacs de données et les entrepôts de données.

Dans le cadre cette disponibilité générale, nous avons introduit de nouvelles fonctionnalités permettant d'identifier les enregistrements spécifiques dont les contrôles de qualité des données ont échoué, et nous avons ajouté de nouvelles règles qui valident la cohérence des données entre les différents jeux de données. Vous pouvez désormais valider la qualité des données des jeux de données Amazon Redshift, Apache Iceberg, Apache HUDI et Delta Lake, qui sont répertoriés dans le catalogue de données AWS Glue. Les résultats recueillis par Qualité des données d'AWS Glue sont désormais publiés sur Amazon EventBridge, ce qui permet de simplifier la façon dont les utilisateurs sont alertés et d'intégrer les résultats de qualité des données à d'autres applications. Ces fonctionnalités vous aident à procéder à des contrôles rigoureux de la qualité des données de différents jeux de données et à identifier les problèmes à corriger.

La fonctionnalité Qualité des données d'AWS Glue est généralement disponible dans toutes les régions AWS où AWS Glue est disponible.

Pour en savoir plus, consultez la page Qualité des données d'AWS Glue.