Amazon SageMaker Data Wrangler

Le moyen le plus rapide et le plus simple de préparer des données tabulaires et des images pour le machine learning

Pourquoi SageMaker Data Wrangler ?

Amazon SageMaker Data Wrangler réduit de plusieurs semaines à quelques minutes le temps nécessaire à l'agrégation et à la préparation des données pour le ML. SageMaker Data Wrangler vous permet également de simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, mais aussi d'effectuer toutes les étapes du flux de travail de préparation de données (telles que la sélection, le nettoyage, l'exploration, la visualisation et le traitement des données à l'échelle) depuis une seule interface visuelle. SQL vous permet de sélectionner les données que vous voulez dans diverses sources de données et les importer rapidement. Ensuite, vous pouvez utiliser le rapport Data Quality and Insights pour automatiquement vérifier la qualité des données et détecter les anomalies, par exemple les lignes dupliquées et les fuites de cibles. SageMaker Data Wrangler comprend plus de 300 transformations de données intégrées pour que vous puissiez transformer rapidement les données sans rédiger de code.

Présentation d'Amazon SageMaker Data Wrangler

Avantages de SageMaker Data Wrangler

Sélectionnez les données, comprenez les informations sur les données et transformez les données pour les préparer au machine learning (ML) en quelques minutes.
Estimez rapidement la précision des modèles ML et diagnostiquez les problèmes avant que les modèles ne soient déployés en production.
Passez plus rapidement à la phase de production de la préparation des données sans avoir à créer du code PySpark, à installer Apache Spark ou à créer des clusters.

Fonctionnement

Fonctionnement d'Amazon SageMaker Data Wrangler

Accéder, sélectionner et interroger les données plus rapidement

L'outil de sélection de données SageMaker Data Wrangler, permet d'accéder rapidement aux données et les sélectionner à partir de diverses sources populaires (telles que Amazon Simple Storage Service [Amazon S3], Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake, et Databricks) et de plus de 50 autres sources tierces (telles que Salesforce, SAP, Facebook Ads et Google Analytics). Vous pouvez également écrire des requêtes pour les sources de données à l'aide de SQL et importer des données directement dans SageMaker à partir de divers formats de fichiers, tels que CSV, Parquet et JSON, et de tables de bases de données.

Générer des informations sur les données et comprendre la qualité des données

SageMaker Data Wrangler fournit un rapport sur la qualité et les perspectives des données qui vérifie automatiquement la qualité des données (telles que les valeurs manquantes, les lignes en double et les types de données) et aide à détecter les anomalies (telles que les valeurs aberrantes, le déséquilibre des classes et les fuites de données) dans vos données. Une fois que vous pouvez vérifier efficacement la qualité des données, vous pouvez rapidement appliquer des connaissances spécialisées pour traiter les jeux de données à des fins d'entraînement de modèles ML.

Comprendre vos données grâce à des visualisations

SageMaker Data Wrangler vous aide à comprendre vos données et identifier des erreurs potentielles et des valeurs extrêmes avec un ensemble de modèles de visualisation préconfigurés et robuste. Les histogrammes, les diagrammes de dispersion, les diagrammes de boîte et de moustaches, les diagrammes linéaires et les diagrammes à barres sont tous intégrés pour être appliqués à vos données. Des visualisations plus avancées spécifiques au ML (telles que le rapport de biais, la corrélation de caractéristiques, la multicolinéarité, la fuite de cibles et les séries temporelles) qui montrent l'importance des caractéristiques et leurs corrélations sont également disponibles. Ces outils sont accessibles depuis l'onglet Analyse.

Transformer les données plus efficacement

SageMaker Data Wrangler propose une sélection de plus de 300 transformations de données prédéfinies basées sur PySpark afin que vous puissiez transformer vos données et adapter votre flux de travail de préparation des données sans écrire une seule ligne de code. Les transformations préconfigurées couvrent les cas d'utilisation courants tels que l'aplatissement des fichiers JSON, la suppression des lignes en double, l'imputation des données manquantes avec la moyenne ou la médiane, l'encodage à chaud, et les transformateurs spécifiques aux séries temporelles pour accélérer la préparation des données de séries temporelles pour le ML. Pour vos données d'image, SageMaker Data Wrangler propose des opérations courantes d'augmentation des images (par exemple, le flou, l'amélioration, le redimensionnement) et des opérations de nettoyage (par exemple, la suppression des images corrompues et des doublons). Vous pouvez aussi créer des transformations personnalisées dans PySpark, SQL et Pandas. SageMaker Data Wrangler propose des bibliothèques d'images (imgaug, OpenCV) permettant de créer des transformations personnalisées adaptées à des cas d'utilisation de CV, ainsi qu'une riche bibliothèque d'extraits de code pour rationaliser la création de transformations personnalisées.

Comprendre le pouvoir prédictif de vos données

La fonction SageMaker Data Wrangler Quick Model fournit une estimation du pouvoir prédictif attendu de vos données. Quick Model divise automatiquement vos données en jeux de données d'entraînement et de test et entraîne les données sur un modèle XGBoost avec des hyperparamètres par défaut. En fonction de la tâche que vous résolvez (par exemple, classification ou régression), SageMaker Data Wrangler fournit un résumé du modèle, un résumé des fonctionnalités et une matrice de confusion, qui vous aident à itérer rapidement sur vos flux de préparation des données.

Automatiser et déployer des flux de préparation de données ML

Avec l'interface utilisateur de SageMaker Data Wrangler, vous pouvez lancer la mise à l'échelle de jeux de données sans avoir à créer du code PySpark, à installer Apache Spark ou à créer des clusters. Vous pouvez lancer ou programmer une tâche pour traiter rapidement vos données ou les exporter vers un bloc-notes SageMaker Studio. SageMaker Data Wrangler offre plusieurs options d'exportation, notamment les tâches SageMaker Data Wrangler, SageMaker Feature Store et SageMaker Pipelines, ce qui vous permet d'intégrer votre flux de préparation des données dans votre flux ML. Vous pouvez également déployer votre flux de préparation des données sur un point de terminaison hébergé par SageMaker. Enfin, vous pouvez exporter des données directement pour la formation de modèles ML à l'aide d'une interface visuelle avec SageMaker Canvas

Clients

Invista
« Chez INVISTA, nous sommes axés sur la transformation et nous souhaitons développer des produits et des technologies qui aident nos clients dans le monde entier. Nous considérons le ML comme un moyen d'améliorer l'expérience client. Cependant, avec des jeux de données qui couvrent des centaines de millions de lignes, nous avions besoin d'une solution pour nous aider à préparer les données et à développer, déployer et gérer des modèles de ML à grande échelle. Avec Amazon SageMaker Data Wrangler, nous pouvons désormais sélectionner, nettoyer, explorer et comprendre efficacement nos données de manière interactive, ce qui permet à notre équipe de science des données de créer des pipelines d'ingénierie des fonctionnalités pouvant s'adapter sans effort à des jeux de données couvrant des centaines de millions de lignes. Avec Amazon SageMaker Data Wrangler, nous pouvons rendre opérationnels nos flux de travail de machine learning plus rapidement. »

Caleb Wilkinson, ancien responsable scientifique des données, INVISTA

3M
« Avec le ML, 3M améliore les produits essayés et testés, comme le papier de verre, et encourage l'innovation dans plusieurs autres domaines, tels que celui de la santé. Alors que nous planifions d'instaurer le ML dans d'autres secteurs de 3M, nous voyons la quantité de données et de modèles augmenter rapidement, doublant chaque année. Nous avons hâte de découvrir les nouvelles fonctionnalités SageMaker parce que nous savons qu'elles nous aideront à nous mettre à l'échelle. Amazon SageMaker Data Wrangler simplifie la préparation des données destinées aux modèles d'entraînement et Amazon SageMaker Feature Store éliminera le besoin de créer encore et toujours les mêmes fonctionnalités de modèle. Enfin, Amazon SageMaker Pipelines nous aidera à automatiser la préparation de données, la création de modèles et le déploiement des modèles dans un flux de travail complet pour que la commercialisation de nos modèles se fasse plus rapidement. Chez 3M, nos chercheurs attendent avec impatience de pouvoir profiter de la nouvelle rapidité de la science. »

David Frazee, ancien directeur technique, 3M Corporate Systems Research Lab

Deloitte
« Amazon SageMaker Data Wrangler nous permet de partir sur les chapeaux de roues pour répondre à nos besoins en préparation de données avec une vaste collection d'outils de transformation qui accélèrent le processus de préparation de données pour le ML afin de commercialiser de nouveaux produits. Nos clients, à leur tour, profitent de ce moyen que nous utilisons pour mettre à l'échelle des modèles déployés qui nous permet de leur fournir des résultats mesurables et durables qui répondent à leurs besoins en seulement quelques jours et non plus quelques mois. »

Frank Farrall, Principal, Responsable écosystèmes et plateformes d'IA, Deloitte

NRI
« En tant que partenaire consultant AWS Premier, nos équipes d'ingénieurs travaillent en étroite collaboration avec AWS afin d'élaborer des solutions innovantes pour aider nos clients à améliorer constamment l'efficacité de leurs opérations. Le ML est au cœur de nos solutions innovantes, mais notre flux de travail de préparation des données implique des techniques de préparation des données sophistiquées qui, par conséquent, prennent beaucoup de temps avant de devenir opérationnelles dans un environnement de production. Avec Amazon SageMaker Data Wrangler, nos scientifiques des données peuvent mener à bien chaque étape du flux de travail de préparation des données, y compris la sélection, le nettoyage, l'exploration et la visualisation des données, ce qui nous aide à accélérer le processus de préparation des données et à préparer sans difficulté nos données pour le ML. Amazon SageMaker Data Wrangler nous permet de préparer plus rapidement des données pour le ML. »

Shigekazu Ohmoto, Directeur général principal de la société, NRI Japon

equilibrium
« Notre empreinte dans le marché de la gestion de la santé de la population continuait de se développer auprès de plus de régimes de soins de santé, de fournisseurs, de responsables des bénéfices en pharmacie et d'autres organisations de soins de santé. Nous avions donc besoin d'une solution permettant d'automatiser les processus de bout en bout pour les sources de données qui alimentent nos modèles de ML, dont les données de demandes, les données d'inscription et les données pharmaceutiques. Avec Amazon SageMaker Data Wrangler, nous pouvons désormais réduire le temps nécessaire au rassemblement et à la préparation des données pour le ML en utilisant un ensemble de flux de travail plus faciles à valider à et réutiliser. Cela a considérablement amélioré le temps de livraison et la qualité de nos modèles, augmenté l'efficacité de nos scientifiques des données et réduit le temps de préparation des données de quasiment 50 %. De plus, SageMaker Data Wrangler nous a permis d'éviter de nombreuses itérations de ML et de réduire significativement le temps requis pour le GPU. Le processus complet est maintenant plus rapide pour nos clients car nous pouvons créer des data marts avec des milliers de fonctions incluant le pharmaceutique, les codes de diagnostic, les visites chez le généraliste, les hospitalisations, ainsi que la démographie et d'autres déterminants sociaux. Avec SageMaker Data Wrangler, nous pouvons transformer nos données plus efficacement afin de créer des ensembles de données d'entraînement, de générer des informations sur les données des jeux de données avant d'exécuter les modèles de ML, et de préparer des données réelles du monde tel qu'il est pour une inférence/des prédictions à l'échelle. »

Lucas Merrow, PDG, Equilibrium Point IoT

Démarrer avec SageMaker Data Wrangler

Blogs

BLOG

Accélération de la préparation des données grâce à la qualité des données et aux aperçus fournis par Amazon SageMaker Data Wrangler

BLOG

Amazon SageMaker Data Wrangler prend en charge les applications SaaS comme sources de données

Blog

Préparation des données de Databricks pour le machine learning à l'aide d'Amazon SageMaker Data Wrangler

BLOG

Préparation des données avec les extraits de code PySpark et Altair dans Amazon SageMaker Data Wrangler

BLOG

Importation de données à partir d'Amazon Redshift à comptes croisés vers Amazon SageMaker Data Wrangler

BLOG

Utilisez Amazon SageMaker Data Wrangler dans Amazon SageMaker Studio avec une configuration de cycle de vie par défaut

Ateliers pratiques

Tutoriel

Tutoriel étape par étape pour démarrer avec SageMaker Data Wrangler

ATELIERS

Découvrez comment utiliser SageMaker Data Wrangler pour les cas d'utilisation

Vidéos de démonstration

Vidéo

re:Invent 2022 : accélérer la préparation des données avec SageMaker Data Wrangler

re:Invent 2022 : accélérer la préparation des données (56:45)
VIDÉO

Préparer rapidement les données pour le ML à l'aide de SageMaker Data Wrangler Atelier virtuel

Préparer rapidement les données pour l'atelier virtuel ML (1:18:08)
VIDÉO

AWS On Air 2020 : AWS What's Next ft. SageMaker Data Wrangler

AWS on Air 2020 : AWS What’s Next ft. SageMaker Data Wrangler (27:51)
VIDÉO

Démo de SageMaker Data Wrangler Deep Dive

Démo de SageMaker Data Wrangler Deep Dive (28:13)

Nouveautés

  • Date (de la plus récente à la plus ancienne)
Aucun résultat correspondant
1