Publié le: Nov 30, 2022

AWS Glue annonce la version préliminaire d'AWS Glue Data Quality, une nouvelle fonctionnalité qui mesure et surveille automatiquement la qualité des lacs et des pipelines de données. AWS Glue est un service évolutif d'intégration des données sans serveur qui améliore l'efficacité de la découverte, de la préparation, du déplacement et de l'intégration des données depuis des sources multiples. La gestion de la qualité des données est une tâche manuelle qui demande du temps. Vous devez configurer des règles de qualité des données avant de valider vos données par rapport à ces règles de manière récurrente, mais aussi écrire du code pour configurer des alertes lorsque la qualité se détériore. Les analystes doivent analyser les données, écrire des règles, puis écrire du code manuellement pour mettre ces règles en place. 

AWS Glue Data Quality analyse automatiquement vos données pour rassembler des statistiques sur les données. L'outil vous recommande ensuite des règles de qualité des données pour commencer. Vous pouvez mettre à jour les règles recommandées ou ajouter de nouvelles règles à l'aide des règles de qualité des données fournies. Si la qualité des données se détériore, vous pouvez alors configurer des actions pour prévenir les utilisateurs. Il est également possible de configurer des règles et des actions de qualité des données sur les tâches d'extraction, de transformation et de chargement (ETL) d'AWS Glue sur les pipelines de données. Ces instructions peuvent empêcher l'arrivée de « mauvaises » données dans les lacs et les entrepôts de données. AWS Glue est sans serveur, il n'y a donc pas d'infrastructure à gérer. En outre, AWS Glue Data Quality utilise Dequu, un cadre open source, pour évaluer les règles. AWS utilise Deequ pour mesurer et surveiller la qualité des données dans des lacs de plusieurs pétaoctets.  

AWS Glue Data Quality est disponible en version préliminaire dans les Régions AWS suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Oregon), Asie-Pacifique (Tokyo) et Europe (Irlande).

Pour en savoir plus, consultez la documentation relative à AWS Glue Data Quality pour la qualité des données sur les données au repos, pour la qualité des données dans les pipelines de données.