Publié le: Jun 9, 2022
Aujourd'hui, nous annonçons la disponibilité générale du fractionnement des données en ensembles d'entraînement et de test avec Amazon SageMaker Data Wrangler. Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le machine learning (ML) de plusieurs semaines à quelques minutes. SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités mais aussi d'effectuer toutes les étapes du flux de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. Avec l'outil de sélection de données de SageMaker Data Wrangler, vous pouvez rapidement sélectionner des données provenant de différentes sources de données, comme Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake et Databricks Delta Lake.
À partir d'aujourd'hui, vous pouvez désormais fractionner vos données en ensembles d'entraînement et de test en quelques clics seulement avec Data Wrangler. Auparavant, les scientifiques des données devaient écrire du code afin de fractionner leurs données en ensembles d'entraînement et de test avant d'entraîner les modèles ML. Avec la nouvelle transformation en fractionnements entraînement-test de SageMaker Data Wrangler, vous pouvez désormais fractionner vos données en ensembles d'entraînement, test et validation et les utiliser dans l'entraînement et la validation de modèles en aval. SageMaker Data Wrangler propose différents types de fractionnement, tels que des fractionnements aléatoires, ordonnés, stratifiés ou basés sur des clés. Il est également possible de spécifier la quantité de données devant figurer dans chaque fractionnement. Par exemple, si vous créez un fractionnement aléatoire de vos données en ensembles d'entraînement et de test, vous pouvez entraîner un modèle de machine learning sur l'ensemble d'entraînement, puis évaluer votre modèle de machine learning sur l'ensemble de test. L'évaluation du modèle sur les données vues pendant l'entraînement peut être biaisée, il est donc crucial de mettre de côté les données de test avant l'entraînement. Ainsi, l'évaluation de la précision du modèle sur les données de l'ensemble de test fournit une estimation des performances réelles du modèle.
Afin de bénéficier des nouvelles fonctionnalités d'Amazon SageMaker Data Wrangler, effectuez une mise à niveau vers la version la plus récente, puis cliquez sur File > New > Flow (Fichier > Nouveau > Flux) dans le menu, ou sur « new data flow » (nouveau flux de données) dans l'outil de lancement de SageMaker Studio. Pour en savoir plus sur les nouvelles fonctions, consultez le blog ainsi que la documentation.