Publié le: Dec 8, 2020
Avec Amazon SageMaker Data Wrangler, regrouper et préparer des données pour le machine learning (ML) ne prend plus des semaines mais seulement quelques minutes. Amazon SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, mais aussi d'effectuer toutes les étapes du flux de travail de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle.
Avec la plupart des modèles de ML, vous pouvez passer des semaines ou des mois à agréger et à préparer des données provenant de différentes sources : conversion, transformation et validation des données brutes en fonctionnalités pouvant être utilisées pour entraîner les modèles et faire des prédictions. Vous devez écrire du code pour créer les transformations de données afin de pouvoir transformer ces données en des formats qui peuvent être utilisés efficacement pour un modèle, et écrire du code supplémentaire qui peut fonctionner à l'échelle sur un grand nombre de sources de données - un temps qu'il vaut mieux, et de loin, consacrer à des tâches de plus grande valeur.
En utilisant l'outil de sélection de données d'Amazon SageMaker Data Wrangler, vous pouvez sélectionner les données que vous voulez à partir de diverses sources de données, dont Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation et Amazon SageMaker Feature Store, et les importer en un seul clic. Amazon SageMaker Data Wrangler comprend plus de 300 transformations intégrées pour que vous puissiez normaliser, transformer et combiner rapidement des fonctionnalités sans avoir à coder. Avec les modèles de visualisation de SageMaker Data Wrangler, vous pouvez rapidement créer un aperçu et vérifier que ces transformations ont été effectuées comme vous le vouliez en les consultant dans Amazon SageMaker Studio, le premier environnement de développement entièrement intégré (IDE) pour ML. Une fois vos données préparées, vous pouvez créer des flux de travail de ML entièrement automatisés avec Amazon SageMaker Pipelines et les sauvegarder pour les réutiliser plus tard dans Amazon SageMaker Feature Store.
Amazon SageMaker Data Wrangler est globalement disponible dans toutes les régions où Amazon SageMaker Studio est disponible. Pour commencer à utiliser Amazon SageMaker Data Wrangler, consultez notre documentation.