Qualité des données d'AWS Glue

Fournissez des données de haute qualité au sein de vos lacs de données et pipelines

Les lacs de données peuvent devenir des marécages de données s'ils ne sont pas surveillés correctement. La mise en place de contrôles de qualité des données est chronophage, fastidieuse et source d'erreurs. Vous devez créer manuellement des règles de qualité des données et écrire du code pour surveiller les pipelines de données et avertir les consommateurs de données lorsque la qualité des données se détériore. La qualité des données d'AWS Glue réduit ces efforts manuels de qualité de plusieurs jours à quelques heures. Il calcule automatiquement des statistiques, recommande des règles de qualité, surveille et vous alerte lorsqu'il détecte des problèmes. Pour les problèmes cachés et difficiles à trouver, la qualité des données Glue utilise des algorithmes ML. La puissance combinée de l'approche basée sur des règles et de ML, associée à la solution sans serveur, évolutive et ouverte, vous permet de fournir des données de haute qualité pour prendre des décisions commerciales en toute confiance. 

Aperçu de la qualité des données d'AWS Glue (1:27)

Fonctionnalités de la qualité des données d'AWS Glue

AWS Glue est un programme sans serveur, ce qui vous permet d'évoluer sans avoir à gérer l'infrastructure. Il s'adapte à toutes les tailles de données et offre une facturation à l'usage pour accroître la souplesse et réduire les coûts. AWS Glue Data Quality utilise Deequ, un cadre open-source créé par Amazon et utilisé pour gérer des jeux de données à l'échelle du pétaoctet. Parce qu'il est conçu à partir d'un code source ouvert, la qualité des données d'AWS Glue offre une flexibilité et une portabilité sans contrainte.
AWS Glue Data Quality calcule automatiquement des statistiques pour vos jeux de données. Elle utilise ces statistiques pour recommander un ensemble de règles de qualité qui vérifient la pertinence, l'exactitude, l'intégrité et détecte les problèmes difficiles à identifier. Vous pouvez ajuster les règles recommandées, écarter des règles ou ajouter de nouvelles règles selon les besoins. Si elle détecte des problèmes de qualité, la qualité des données d'AWS Glue vous alerte également pour que vous puissiez agir.
La qualité des données d'AWS Glue est intelligente, et identifie des schémas à partir des statistiques de données recueillies au fil du temps à l'aide des algorithmes de ML. Elle détecte les anomalies et les schémas de données inhabituels et alerte les utilisateurs. En outre, elle crée automatiquement des règles pour surveiller ces schémas spécifiques afin que vous puissiez progressivement créer des règles concernant la qualité des données.
Vos données reposent dans différents référentiels, et elles passent d'un référentiel à l'autre. Il est important de contrôler la qualité des données, tant à leur arrivée qu'au cours de leur transit. Les règles de la qualité des données d'AWS Glue peuvent être appliquées aux données au repos dans vos jeux de données et vos lacs de données ainsi qu'à des pipelines de données entiers où les données sont en mouvement. Vous pouvez appliquer des règles à plusieurs jeux de données. Pour les pipelines de données créés sur AWS Glue Studio, vous pouvez appliquer une transformation pour évaluer la qualité de l'ensemble du pipeline à une fraction du coût, car les données sont déjà en mémoire. Vous pouvez également définir des règles pour arrêter le pipeline si la qualité se détériore, empêchant ainsi les mauvaises données d'atterrir dans vos lacs de données.
Utilisez plus de 25 règles de qualité des données d'AWS Glue prêtes à l'emploi pour valider vos données et identifier les données spécifiques à l'origine des problèmes. Mettez en œuvre des contrôles de qualité des données qui comparent différents jeux de données dans des sources de données disparates en quelques minutes grâce à des règles prêtes à l'emploi. Grâce à l'ETL Glue, vous pouvez facilement résoudre ces problèmes et ingérer des données de haute qualité dans vos référentiels de données.