Publié le: Oct 14, 2021
Avec Amazon SageMaker Data Wrangler, regrouper et préparer des données pour le Machine Learning (ML) ne prend plus des semaines, mais seulement quelques minutes. SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, mais aussi d'effectuer toutes les étapes du flux de travail de préparation de données, telles que la sélection, le nettoyage, l'exploration et la visualisation des données, depuis une seule interface visuelle.
À partir d'aujourd'hui, vous pouvez interroger des données sur Amazon Athena à l'aide de groupes de travail, activer des jointures multi-clés pour les jeux de données, et visualiser la corrélation et les lignes en double. Vous pouvez aussi fournir des clés gérées par le client lors de l'exportation de vos flux de données, ce qui facilite et accélère la préparation des données pour le ML. Vous trouverez ci-dessous une description détaillée de ces fonctions :
- Prise en charge des groupes de travail Athena. Les groupes de travail Amazon Athena sont un nouveau type de ressource permettant de répartir l’exécution et l’historique des requêtes entre des applications exécutées dans un même compte AWS, des utilisateurs ou des équipes. À compter d'aujourd'hui, vous pouvez désormais interroger des données avec Athena à partir de SageMaker Data Wrangler en utilisant le groupe de travail de votre choix.
- Deux nouvelles visualisations pour faciliter la préparation des données :
- Avec la visualisation de la corrélation des fonctions de SageMaker Data Wrangler, vous pouvez facilement calculer la corrélation des fonctions dans votre jeu de données et les visualiser sous forme de matrice de corrélation.
- Avec la nouvelle visualisation de détection de lignes en double, vous pouvez rapidement détecter si votre jeu de données contient des lignes en double.
- Jointures multi-clés. Vous pouvez désormais spécifier plusieurs colonnes lors de la jonction de deux jeux de données dans SageMaker Data Wrangler et supprimer les étapes intermédiaires dans les flux SageMaker Data Wrangler.
- Prise en charge des clés gérées par le client (CMK) à l'aide d'Amazon Key Management Service (KMS). À compter d'aujourd'hui, vous pouvez désormais spécifier la clé KMS lorsque vous utilisez à la fois la fonction « Exporter vers S3 » en plus des blocs-notes exportés à partir de SageMaker Data Wrangler.
Pour démarrer avec les nouvelles fonctionnalités d'Amazon SageMaker Data Wrangler, ouvrez Amazon SageMaker Studio après avoir effectué la mise à niveau vers la dernière version, puis cliquez sur Fichier > Nouveau > Flux dans le menu ou sur « Nouveau flux de données » dans le lanceur de SageMaker Studio. Pour en savoir plus sur les nouvelles fonctions, consultez la documentation.