Publié le: Aug 16, 2021
Avec Amazon SageMaker Data Wrangler, regrouper et préparer des données pour le machine learning (ML) ne prend plus des semaines mais seulement quelques minutes. SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités mais aussi d'effectuer toutes les étapes du flux de travail de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. À compter d'aujourd'hui, vous pouvez utiliser les nouvelles fonctionnalités d'Amazon SageMaker Data Wrangler qui simplifient et accélèrent la préparation des données pour le ML, dont : la détection d'une multicolinéarité, l'exportation facile des résultats vers Amazon S3, la prise en charge des délimiteurs de colonne et la capacité à réutiliser le même flux SageMaker Data Wrangler sur plusieurs jeux de données de votre choix.
La multicolinéarité se produit lorsqu'au moins deux fonctions d'un jeu de données sont étroitement liées entre elles. Il est important de détecter la présence d'une multicolinéarité dans un jeu de données, car la multicolinéarité peut avoir un impact négatif sur les performances d'un modèle ML. À compter d'aujourd'hui, vous pouvez utiliser trois nouvelles visualisations de diagnostic dans Amazon SageMaker Data Wrangler pour vous aider à détecter la multicolinéarité dans un jeu de données. La première visualisation vous permet de déterminer les facteurs d'inflation de la variance (FIV) de votre jeu de données. Si votre jeu de données comporte des FIV élevés, cela peut indiquer la présence d'une multicolinéarité. Le deuxième visualisation utilise l'analyse des composants principaux (PCA) et la décomposition en valeurs singulières (SVD) pour calculer des valeurs singulières. Si votre jeu de données comporte des valeurs singulières dont la distribution est loin d'être uniforme, cela peut également indiquer une multicolinéarité. Enfin, la troisième visualisation utilise la méthode LASSO (Least Absolute Shrinkage and Selection Operator), qui permet de déterminer les valeurs des coefficients à partir d'un modèle LASSO formé sur vos données. Il se peut que les variables dont les valeurs des coefficients sont les plus proches de zéro soient redondantes et ne contribuent pas grandement aux performances d'un modèle ML.
À compter d'aujourd'hui, vous pouvez également facilement exporter vos données préparées en quelques clics. La nouvelle fonctionnalité d'exportation d'Amazon SageMaker Data Wrangler vous permet d'exporter vos données en quelques clics. Il vous suffit de cliquer sur « Exporter les données » dans l'onglet de préparation et d'indiquer l'emplacement Amazon S3 où vous souhaitez stocker vos résultats. Vos résultats sont directement exportés vers S3, ce qui vous permet de les utiliser dans les autres applications ML. De plus, vous pouvez désormais importer des données dans de nombreux formats délimités, dont les formats de données séparés par des virgules, séparés par des tabulations, séparés par des barres verticales, séparés par des points-virgules et séparés par deux points. Enfin, vous pouvez désormais modifier les jeux de données utilisés dans vos flux de données SageMaker Data Wrangler. Il vous suffit de cliquer sur un nœud source dans l'aperçu des données et de sélectionner « Modifier le jeu de données » pour modifier les données source utilisées dans un fichier de flux SageMaker Data Wrangler.
Pour démarrer avec les nouvelles fonctionnalités d'Amazon SageMaker Data Wrangler, ouvrez Amazon SageMaker Studio et cliquez sur Fichier > Nouveau> Flux dans le menu ou cliquez sur « Nouveau flux de données » dans le lanceur de SageMaker Studio. Pour en savoir plus, consultez la page des fonctionnalités ou notre documentation. Vous pouvez également découvrir comment vous mettre à niveau vers la dernière version ici.