Publié le: Oct 21, 2022
Aujourd'hui, nous sommes heureux d'annoncer la prise en charge de la réduction de dimensionnalité avec l'analyse des composants principaux (principal components analysis ou PCA en anglais) dans Amazon SageMaker Data Wrangler. Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de plusieurs semaines à quelques minutes. Data Wrangler vous permet de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, mais également d'effectuer toutes les étapes du flux de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. L'analyse des composants principaux est une technique courante pour analyser des jeux de données importants qui contiennent un grand nombre de dimensions par observation. C'est également une technique statistique pratique pour réduire la dimensionnalité d'un jeu de données en vue d'une utilisation avec des algorithmes de machine learning populaires tels que XgBoost et random forest (forêt aléatoire). Auparavant, afin de réaliser une PCA sur un jeu de données, les experts en science des données devaient trouver des bibliothèques adéquates et écrire du code pour réduire les données à forte dimensionnalité.
Avec la prise en charge de la PCA dans Data Wrangler, vous pouvez désormais réduire facilement la dimensionnalité d'un jeu de données à forte dimensionnalité en quelques clics. Vous pouvez accéder à la PCA en sélectionnant Dimensionality Reduction (Réduction de la dimensionnalité) depuis le flux de travail « Add step » (Ajouter une étape). Le sélecteur de colonne intégré vous permet de sélectionner automatiquement toutes les colonnes numériques et de spécifier le nombre de composants principaux à retenir. Vous avez également la possibilité de spécifier le pourcentage de seuil d'écart, et Data Wrangler déterminera automatiquement le nombre adéquat de composants à retenir dans votre jeu de données transformé.
Cette fonctionnalité est généralement disponible dans toutes les régions AWS actuellement prises en charge par Data Wrangler sans coût supplémentaire. Pour commencer à planifier vos tâches de traitement de données avec SageMaker Data Wrangler, lisez la documentation AWS.