Publié le: Jun 16, 2022
À compter d'aujourd'hui, il est plus rapide et facile de préparer et de visualiser des données à l'aide de PySpark et d'Altair grâce à la prise en charge des extraits de code dans Amazon SageMaker Data Wrangler. Amazon SageMaker Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour le Machine Learning (ML) de plusieurs semaines à quelques minutes. SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, mais aussi d'effectuer toutes les étapes du flux de préparation de données telles que la sélection, le nettoyage, l'exploration et la visualisation des données depuis une seule interface visuelle. Grâce à l'outil de sélection des données de SageMaker Data Wrangler, vous pouvez sélectionner rapidement des données à partir de plusieurs sources de données, comme Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store, Databricks et Snowflake.
À compter d'aujourd'hui, vous pouvez préparer et afficher les données plus rapidement à l'aide des extraits de code PySpark et Altair dans Amazon SageMaker Data Wrangler. PySpark est une interface en Python pour Apache Spark. Altair est une bibliothèque de visualisation statistique déclarative en Python basée sur Vega et Vega-Lite. Auparavant, les data scientists qui utilisaient Data Wrangler partaient d'un éditeur vide ou recherchaient des extraits de code sur Internet afin de coder dans PySpark et Altair pour préparer et visualiser leurs données. Désormais, ceux qui souhaitent utiliser PySpark pour écrire une transformation personnalisée dans SageMaker Data Wrangler peuvent rechercher dans plus de 30 extraits de code PySpark pour répondre à leurs besoins de traitement des données, par exemple pour supprimer des lignes, renommer par lot, convertir et réorganiser des colonnes, et filtrer des colonnes de texte en fonction des valeurs qu’elles contiennent avec une chaîne spécifique. De plus, les data scientists qui souhaitent écrire du code Altair pour créer des visualisations dans SageMaker Data Wrangler peuvent effectuer des recherches dans les extraits de code Altair afin de créer des cartes thermiques, des diagrammes de dispersion et des diagrammes en escaliers pleins depuis SageMaker Data Wrangler.
Pour démarrer avec les nouvelles fonctionnalités d'Amazon SageMaker Data Wrangler, ouvrez Amazon SageMaker Studio après avoir effectué la mise à niveau vers la dernière version, puis cliquez sur Fichier > Nouveau> Flux dans le menu ou sur « Nouveau flux de données » dans le lanceur de SageMaker Studio. Pour en savoir plus sur les nouvelles fonctions, consultez le blog ainsi que la documentation.