Publié le: Feb 11, 2021
Lorsque vous exécutez des tâches de profil dans AWS Glue DataBrew pour générer automatiquement plus de 40 statistiques sur la qualité des données telles que la cardinalité au niveau des colonnes, les corrélations numériques, les valeurs uniques, l'écart type et d'autres statistiques, vous pouvez désormais configurer la taille du jeu de données que vous souhaitez analyser. Cela vous permet de personnaliser votre profil pour qu'il s'exécute sur x % du jeu de données pour les jeux de données vraiment importants ou de vous concentrer sur un sous-échantillon du jeu de données pour des résultats plus rapides.
Une fois la tâche de profil terminée, DataBrew fait apparaître toutes les statistiques sur un tableau de bord visuel du profil sur la console et stocke les statistiques brutes comme un objet JSON dans votre compartiment Amazon S3. Ainsi, vous pouvez surveiller la qualité des données entrantes au fil du temps, détecter les changements imprévus ou indésirables dans les données et configurer des alertes automatisées de qualité des données en quelques minutes au lieu de plusieurs heures, jours et semaines, sans écrire de code.
Pour commencer, visitez AWS Management Console ou installez le module d'extension DataBrew dans votre environnement de bloc-notes et reportez-vous à la documentation de DataBrew.