Publié le: Mar 30, 2021
Avec AWS Glue DataBrew, vous pouvez désormais repérer visuellement les valeurs aberrantes dans les données provenant de votre lac de données, de vos entrepôts de données et d'autres sources de données accessibles par JDBC. Vous pouvez également traiter les valeurs aberrantes en les remplaçant, en les supprimant, en les remettant à l'échelle ou en les signalant à l'aide de méthodes mathématiques et algorithmiques telles que la cote Z (pour trouver la différence par rapport à la valeur moyenne et la diviser par l'écart type), la cote Z modifiée (pour calculer la différence par rapport à l'écart médian absolu), les écarts interquartiles (pour calculer les valeurs entre le premier et le troisième quartile) ; vous avez aussi la possibilité d'utiliser une ou plusieurs transformations, par exemple en créant une colonne d'indicateurs ou en appliquant des fonctions de fenêtrage, ou faire votre choix parmi plus de 250 autres transformations.
Pour les cas d'utilisation d'analyse et de Machine Learning, les ensembles de données contiennent souvent des valeurs aberrantes renfermant des informations précieuses ou des aberrations dénuées de sens dues à des erreurs de mesure et d'enregistrement. L'inclusion ou l'exclusion des valeurs aberrantes dans les ensembles de données peut avoir un impact direct sur le résultat de l'analyse ou du Machine Learning, ainsi sur les décisions prises sur la base de ces données. Lorsque vous travaillez avec de petits échantillons de données provenant de votre lac de données et de vos entrepôts de données, vous devez décomposer plusieurs fois les données dans le code pour détecter et traiter toutes les valeurs aberrantes, car il n'existe aucun moyen visuel de les examiner. Désormais, avec DataBrew, vous pouvez non seulement avoir un aperçu visuel des valeurs aberrantes dans les profils de vos ensembles de données, mais aussi les traiter de manière appropriée sans écrire la moindre ligne de code.
AWS Glue DataBrew est un outil visuel de préparation des données qui permet de nettoyer et de normaliser facilement les données à l'aide de plus de 250 transformations prédéfinies pour la préparation des données, sans qu'il soit nécessaire d'écrire le moindre code.
Pour en savoir plus, regardez cette vidéo de mise en route ou utilisez un exemple d'ensemble de données pour explorer DataBrew. Pour commencer, consultez la Console de gestion AWS ou installez le module d'extension DataBrew dans votre environnement de bloc-notes et reportez-vous à la documentation de DataBrew.