Publié le: Apr 27, 2022
Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de plusieurs semaines à quelques minutes. SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités mais aussi d'effectuer toutes les étapes du flux de travail de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. Grâce à l'outil de sélection des données de SageMaker Data Wrangler, vous pouvez sélectionner rapidement des données à partir de plusieurs sources de données, comme Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store, Databricks Delta Lake et Snowflake.
Aujourd'hui, nous annonçons la disponibilité générale d'une fonction de rapport sur la qualité des données et informations sur les données au sein de Data Wrangler. Auparavant, pour obtenir des informations sur les données et la qualité des données pour le ML, les scientifiques des données devaient écrire une quantité importante de code pour importer, traiter et analyser et enfin exporter ces informations. Un processus long et laborieux. Aujourd'hui, grâce à la prise en charge des informations sur les données et la qualité des données, les scientifiques des données peuvent accéder instantanément à ces informations en quelques clics. Ce nouveau rapport vérifie automatiquement la qualité des données et détecte les anomalies dans vos données. Les scientifiques et ingénieurs des données peuvent utiliser cet outil pour appliquer efficacement et rapidement les connaissances dans le domaine afin de traiter les jeux de données pour l'entraînement du modèle de ML.
Le rapport comprend les sections suivantes :
- Statistiques récapitulatives. Cette section donne des informations sur le nombre de lignes, les fonctions, le pourcentage manquant, le pourcentage valide, les lignes en double et une ventilation du type de fonctionnalité (par exemple, numérique ou texte).
- Avertissements sur la qualité des données. Cette section fournit des avertissements qui signalent des anomalies dans les données et comprend des éléments tels que : présence d'une petite classe minoritaire, cardinalité de cible élevée, étiquette de cible rare, distribution de classe déséquilibrée, cible asymétrique, cible à queue lourde, valeurs aberrantes dans la cible, étiquette fréquente de régression, valeurs invalides et plus encore.
- Informations sur la colonne cible. Cette section fournit des statistiques sur la colonne cible, notamment le pourcentage de valeurs valides, le pourcentage de valeurs manquantes, le pourcentage de valeurs aberrantes, des statistiques univariées telles que min/médiane/max, et présente également des exemples d'observations avec des valeurs cibles aberrantes ou invalides.
- Modèle rapide. Le rapport sur les informations relatives aux données entraîne automatiquement un modèle sur vos données afin de fournir un contrôle directionnel sur la progression de l'ingénierie des fonctionnalités et fournit les statistiques associées au modèle dans le rapport.
- Importance de la fonction. Cette section fournit un classement des fonctions par leur importance qui est automatiquement calculé lors de la préparation du rapport sur les informations sur les données et la qualité des données.
- Lignes anormales et dupliquées. Le rapport sur la qualité des données et informations sur les données détecte les échantillons anormaux à l'aide de l'algorithme de la forêt d'isolement et fait également apparaître les lignes en double qui peuvent être présentes dans le jeu de données.
- Détails de la fonction. Cette section fournit des statistiques récapitulatives pour chaque fonction du jeu de données ainsi que la distribution correspondante de la variable cible.
Pour en savoir plus sur la création du rapport sur la qualité des données et informations sur les données et sur la façon de l'utiliser dans le cadre de votre flux de préparation des données, lisez le blog.
Pour démarrer avec les nouvelles fonctionnalités d'Amazon SageMaker Data Wrangler, vous pouvez ouvrir Amazon SageMaker Studio après avoir effectué la mise à niveau vers la dernière version. Cliquez ensuite sur File > New > Flow (Fichier > Nouveau > Flux) dans le menu supérieur, ou sur « New data flow » (Nouveau flux de données) dans l'outil de lancement de SageMaker Studio. Pour en savoir plus sur les nouvelles fonctions, consultez la documentation.