Amazon SageMaker Data Wrangler

Le moyen le plus rapide et facile de préparer des données pour le machine learning

Avec Amazon SageMaker Data Wrangler, regrouper et préparer des données pour le machine learning (ML) ne prend plus des semaines mais seulement quelques minutes. SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d’ingénierie des fonctionnalités mais aussi d’effectuer toutes les étapes du flux de travail de préparation de données telles que la sélection, le nettoyage, l’exploration et la visualisation des données depuis une seule interface visuelle. En utilisant l’outil de sélection de données de SageMaker Data Wrangler, vous pouvez choisir les données que vous voulez dans différentes sources de données et les importer en un seul clic. SageMaker Data Wrangler comprend plus de 300 transformations intégrées pour que vous puissiez normaliser, transformer et combiner rapidement des fonctionnalités dans avoir à code. Avec les modèles de visualisation de SageMaker Data Wrangler, vous pouvez rapidement créer un aperçu et vérifier que ces transformations ont été effectuées comme vous le vouliez en les consultant dans Amazon SageMaker Studio, le premier environnement de développement entièrement intégré pour ML. Une fois vos données préparées, vous pouvez créer des flux de travail ML entièrement automatisés avec Amazon SageMaker Pipelines et les sauvegarder pour les réutiliser dans le Feature Store Amazon SageMaker.

Accélérer la préparation des données avec Amazon SageMaker Data Wrangler (33:07)

Préparer des données pour le ML en quelques minutes

Sélectionner et interroger des données en quelques clics

Avec l’outil de sélection de données de SageMaker Data Wrangler, vous pouvez rapidement sélectionner des données dans différentes sources de données telles que Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation et Amazon SageMaker Feature Store. Vous pouvez également écrire des requêtes pour des sources de données et importer des données directement dans SageMaker depuis divers formats de fichiers tels que des fichiers CSV, Parquet et des tables de base de données.

Transformer facilement des données

SageMaker Data Wrangler propose une sélection de plus de 300 transformations de données préconfigurées, telles que convertir le type de colonne, l’encodage one-hot, attribuer la valeur moyenne ou médiane à des données manquantes, redimensionner des colonnes et les intégrations données/heure, pour que vous puissiez transformer vos données dans des formats qui peuvent être efficacement utilisés comme modèles sans avoir à écrire une ligne de code. Par exemple, vous pouvez convertir une colonne de champ de texte en une colonne numérique en un seul clic ou éditer des transformations personnalisées dans PySpark, SQL et Pandas.

Comprendre vos données grâce à des visualisations

SageMaker Data Wrangler vous aide à comprendre vos données et identifier des erreurs potentielles et des valeurs extrêmes avec un ensemble de modèles de visualisation préconfigurés. Histogrammes, nuages de points, boîtes à moustaches, graphiques linéaires et en barre sont tous disponibles. Les modèles tels que les histogrammes facilite la création et la modification de vos propres visualisations sans avoir à coder.

Se rendre rapidement compte de la précision d’un modèle de ML

Diagnostiquer et résoudre les problèmes de préparation de données pour ML plus vite

SageMaker Data Wrangler vous permet de rapidement identifier les inconsistances dans votre flux de travail de préparation de données et diagnostiquer les problèmes avant que les modèles soient déployés pour la production. Vous pouvez rapidement identifier si vos données préparées donneront lieu à un modèle précis pour pouvoir déterminer si une ingénierie de fonctionnalités supplémentaire est nécessaire afin d’améliorer la performance.

De la préparation à la production en un clic

Automatiser les flux de travail de préparation de données pour le ML

Exportez votre flux de travail de préparation de données vers un bloc-notes ou un script de code en un seul clic pour l’envoyer à la production. SageMaker Data Wrangler intègre sans effort votre flux de travail de préparation de données avec Amazon SageMaker Pipelines pour automatiser le déploiement et la gestion du modèle. Ce service publie également des fonctionnalités dans Amazon SageMaker Feature Store pour que vous puissiez partager les fonctionnalités avec votre équipe et que d’autres puissent les réutiliser pour leurs propres modèles et analyses.

Clients

Invista
« Chez INVISTA, nous sommes axés sur la transformation et nous souhaitons développer des produits et des technologies qui aident nos clients dans le monde entier. Le machine learning est pour nous un moyen d’améliorer l’expérience client mais, face à des ensembles de données qui dépassent les centaines de millions de lignes, nous avions besoin d’une solution qui nous aiderait à préparer les données et à développer, déployer et gérer les modèles de ML à grande échelle... Avec Amazon SageMaker Data Wrangler, nous pouvons sélectionner, nettoyer, explorer et comprendre nos données de manière interactive et efficace, ce qui donne les moyens à notre équipe de science des données de créer des pipelines d’ingénierie de fonctionnalités qui peuvent se mettre à l’échelle des ensembles de données comprenant des centaines de millions de lignes sans effort... Avec Amazon SageMaker Data Wrangler, nous pouvons rendre opérationnels nos flux de travail de ML plus rapidement. »

Caleb Wilkinson, Responsable scientifique des données - INVISTA

3M
« Avec le ML, 3M améliore les produits essayés et testés, comme le papier de verre, et encourage l'innovation dans plusieurs autres domaines, tels que celui de la santé. Alors que nous planifions d’instaurer le machine learning dans d’autres secteurs de 3M, nous voyons la quantité de données et de modèles augmenter rapidement, doubler chaque année. Nous avons hâte de découvrir les nouvelles fonctionnalités SageMaker parce que nous savons qu’elles nous aideront à nous mettre à l’échelle. Amazon SageMaker Data Wrangler simplifie la préparation des données destinées aux modèles d’entraînement et Amazon SageMaker Feature Store éliminera le besoin de créer encore et toujours les mêmes fonctionnalités de modèle. Enfin, Amazon SageMaker Pipelines nous aidera à automatiser la préparation de données, la création de modèles et le déploiement des modèles dans un flux de travail complet pour que la commercialisation de nos modèles se fasse plus rapidement. Chez 3M, nos chercheurs attendent avec impatience de pouvoir profiter de la nouvelle rapidité de la science. »

David Frazee, Directeur technique - 3M Corporate Systems Research Lab

Deloitte
« Amazon SageMaker Data Wrangler nous permet de partir sur les chapeaux de roues pour répondre à nos besoins en préparation de données avec une vaste collection d'outils de transformation qui accélèrent le processus de préparation de données pour le machine learning afin de commercialiser de nouveaux produits. Nos clients, à leur tour, profitent de ce moyen que nous utilisons pour mettre à l’échelle des modèles déployés qui nous permet de leur fournir des résultats mesurables et durables qui répondent à leurs besoins en seulement quelques jours et non plus quelques mois. »

Frank Farrall, Principal, Responsable écosystèmes et plateformes d'IA - Deloitte

NRI
« En tant que partenaire consultant AWS Premier, nos équipes d'ingénieurs travaillent en étroite collaboration avec AWS afin d'élaborer des solutions innovantes pour aider nos clients à améliorer constamment l'efficacité de leurs opérations. Le machine learning est au cœur de nos solutions innovantes, mais notre flux de travail de préparation des données implique des techniques de préparation des données sophistiquées qui, par conséquent, prennent beaucoup de temps avant de devenir opérationnelles dans un environnement de production. Avec Amazon SageMaker Data Wrangler, nos scientifiques des données peuvent mener à bien chaque étape du flux de travail de préparation des données, y compris la sélection, le nettoyage, l'exploration et la visualisation des données, ce qui nous aide à accélérer le processus de préparation des données et à préparer sans difficulté nos données pour le machine learning. Amazon SageMaker Data Wrangler nous permet de préparer plus rapidement des données pour le machine learning. »

Shigekazu Ohmoto, Directeur général principal - NRI Japon

Equilibrium Point IoT
« Notre empreinte dans le marché de la gestion de la santé de la population continuait de se développer auprès de plus de régimes de soins de santé, de fournisseurs, de responsables des bénéfices en pharmacie et d'autres organisations de soins de santé. Nous avions donc besoin d'une solution permettant d'automatiser les processus de bout en bout pour les sources de données qui alimentent nos modèles de machine learning, dont les données de demandes, les données d'inscription et les données pharmaceutiques. Avec Amazon SageMaker Data Wrangler, nous pouvons désormais réduire le temps nécessaire au rassemblement et à la préparation des données pour le machine learning en utilisant un ensemble de flux de travail plus faciles à valider à et réutiliser. Cela a considérablement amélioré le temps de livraison et la qualité de nos modèles, augmenté l'efficacité de nos scientifiques des données et réduit le temps de préparation des données de quasiment 50 %. De plus, SageMaker Data Wrangler nous a permis d'éviter de nombreuses itérations de machine learning et de réduire significativement le temps requis pour le GPU. Le processus complet est maintenant plus rapide pour nos clients car nous pouvons créer des data marts avec des milliers de fonctions incluant le pharmaceutique, les codes de diagnostic, les visites chez le généraliste, les hospitalisations, ainsi que la démographie et d'autres déterminants sociaux. Avec SageMaker Data Wrangler, nous pouvons transformer nos données plus efficacement afin de créer des ensembles de données d'entraînement, de générer des informations sur les données des jeux de données avant d'exécuter les modèles de machine learning, et de préparer des données réelles du monde tel qu'il est pour une inférence/des prédictions à l'échelle. »

Lucas Merrow, PDG - Equilibrium Point IoT

Démarrer avec Amazon SageMaker Data Wrangler

Démarrer en préparant des données pour le machine learning dans AWS Management Console