Amazon SageMaker pour les scientifiques des données

Amazon SageMaker pour les scientifiques des données

Science des données

Des dizaines de milliers de scientifiques des données utilisent Amazon SageMaker parce qu'il leur permet de résoudre facilement des problèmes d'entreprise à l'aide de machine learning (ML). SageMaker Studio fournit un environnement de développement entièrement intégré (EDI) pour le ML afin que vous puissiez préparer des données, ainsi que créer, entraîner et déployer des modèles avec une expérience visuelle unique. Dans l'ensemble, les équipes scientifiques des données peuvent être jusqu'à 10 fois plus productives en utilisant SageMaker.

Machine Learning

Transparence

Les biais sont des déséquilibres dans la précision des prévisions entre différents groupes, tels que l'âge ou la tranche de revenu. Les biais peuvent résulter de données ou d'algorithmes utilisés pour entraîner votre modèle. Le domaine du machine learning offre la possibilité d'aborder les biais en les détectant dans vos données et votre modèle.

Détecter les biais et comprendre les prédictions

Amazon SageMaker Clarify fournit des données pour améliorer la qualité des modèles par la détection de biais pendant la préparation des données et après l'entraînement. SageMaker Clarify fournit également des rapports d'explicabilité des modèles afin que les parties prenantes puissent voir comment et pourquoi les modèles font des prévisions.

En savoir plus »
SageMaker Clarify

Collecter et préparer des données d'entraînement

Amazon SageMaker offre tous les outils dont vous avez besoin pour créer des données d'entraînement de haute qualité. Vous pouvez facilement accéder aux données d'AWS et de sources de données tierces, étiqueter vos données, nettoyer et transformer automatiquement les données et visualiser les données afin de concevoir des caractéristiques de modèle. 

Préparer des données pour le ML en quelques minutes

Avec l'outil de sélection de données de SageMaker Data Wrangler, vous pouvez rapidement sélectionner des données dans différentes sources de données telles que Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon S3 et Amazon SageMaker Feature Store. Vous pouvez écrire des requêtes sur les sources de données et importer des données directement dans SageMaker à partir de différents formats de fichiers, utiliser les modèles de visualisation de SageMaker Data Wranger et les transformations de données intégrées pour vous assurer que les données préparées donneront lieu à des modèles de ML précis. 

En savoir plus »
SageMaker Data Wrangler

Étiquetage des données

Amazon SageMaker Ground Truth vous aide à créer des jeux de données d'entraînement extrêmement précis pour le machine learning. Commencez à étiqueter vos données en quelques minutes via la console SageMaker Ground Truth en utilisant des flux de travail personnalisés ou intégrés pour les tâches d'étiquetage des données, y compris les nuages de points 3D, la vidéo, les images et le texte.

Mise en route »
SageMaker Ground Truth

Magasin de caractéristiques à faible latence

Amazon SageMaker Feature Store est un référentiel entièrement géré pour stocker, mettre à jour, récupérer et partager des caractéristiques de machine learning (ML). SageMaker Feature Store propose exactement les mêmes caractéristiques par lots pour l'entraînement et en temps réel pour l'inférence, de sorte que vous n'avez pas besoin d'écrire du code pour maintenir la cohérence des caractéristiques. Vous pouvez facilement ajouter de nouvelles caractéristiques, mettre à jour les caractéristiques existantes, récupérer des caractéristiques par lots pour l'entraînement et obtenir les mêmes caractéristiques avec une latence de quelques millisecondes pour l'inférence en temps réel.

En savoir plus »
SageMaker Feature Store

Créer des modèles

Une fois les données préparées, Amazon SageMaker fournit tous les outils dont vous avez besoin pour essayer de manière itérative différentes techniques de modélisation afin d'évaluer leurs performances. Vous pouvez choisir différents algorithmes, dont plus de 15 sont intégrés et optimisés pour SageMaker, et plus de 150 modèles prédéfinis provenant de zoos de modèles populaires disponibles en quelques clics seulement. Dans SageMaker Studio, vous pouvez exécuter les modèles à petite échelle pour voir les résultats et afficher des rapports sur leurs performances afin d'obtenir des prototypes fonctionnels de haute qualité.

Blocs-notes Jupyter en un clic

Les blocs-notes Amazon SageMaker Studio sont des blocs-notes Jupyter en un clic qui peuvent être démarrés rapidement. Les ressources de calcul sous-jacentes sont entièrement élastiques, de sorte que vous pouvez facilement augmenter ou diminuer les ressources disponibles et que les changements s'effectuant automatiquement en arrière-plan sans interrompre votre travail. Les blocs-notes peuvent être partagés en un seul clic, vos collègues obtiennent exactement le même bloc-notes, enregistré au même endroit.

Mise en route »
Bloc-notes SageMaker Studio

Algorithmes intégrés

Amazon SageMaker propose également plus de 15 algorithmes intégrés disponibles dans des images de conteneurs prédéfinis qui peuvent être utilisés pour rapidement entraîner et exécuter l'inférence.

Mise en route »
Algorithmes intégrés

Mode local

Amazon SageMaker permet de tester et de prototyper localement. Les conteneurs Docker Apache MXNet et TensorFlow utilisés dans SageMaker sont disponibles sur GitHub. Vous pouvez télécharger ces conteneurs dans votre environnement local et utiliser le kit SDK Python de SageMaker pour tester vos scripts avant de les déployer dans les environnements d'entraînement ou d'hébergement de SageMaker. 

Mise en route »
Mode local de SageMaker

Apprentissage par renforcement

Amazon SageMaker prend en charge l'apprentissage par renforcement en plus des modèles d'apprentissage supervisés et non supervisés traditionnels. SageMaker contient des algorithmes d'apprentissage par renforcement entièrement gérés et intégrés, y compris certains des algorithmes les plus récents et les plus performants dans le milieu universitaire.

Mise en route »
Apprentissage par renforcement

Entraîner et ajuster les modèles

Amazon SageMaker fournit tout ce dont vous avez besoin pour entraîner et ajuster les modèles. Vous pouvez facilement gérer différentes exécutions d'entraînement pour isoler et mesurer l'impact de la modification des ensembles de données, des versions d'algorithme et des paramètres du modèle ou profiter de son ajustement automatique. 

Organiser, suivre et évaluer les exécutions d'entraînement

Amazon SageMaker Experiments capture automatiquement les paramètres d'entrée, les configurations et les résultats de l'entraînement, puis les stocke en tant qu’« expériences ». Vous pouvez parcourir les expériences actives, rechercher les expériences précédentes à l’aide de leurs caractéristiques, évaluer les expériences précédentes avec leurs résultats et établir des comparaisons visuelles entre les expériences.

Mise en route »
SageMaker Experiments

Détecter et déboguer les problèmes

Amazon SageMaker Debugger capture les métriques en temps réel afin que vous puissiez corriger rapidement les problèmes de performance avant que le modèle ne soit déployé en production.

En savoir plus »
SageMaker Debugger

Entraînement Spot géré

Amazon SageMaker propose Entraînement Spot géré pour vous aider à réduire les coûts d'entraînement jusqu'à 90 %. Cette solution utilise des instances Spot Amazon EC2, qui constitue une réserve de capacité de calcul d’AWS. Les tâches d'entraînement sont automatiquement exécutées lorsque la capacité de calcul devient disponible et sont rendues résilients aux interruptions causées par les modifications dans la capacité, ce qui vous permet de faire des économies puisque vous avez la possibilité de choisir le moment où vous voulez exécuter les tâches d'entraînement.

Mise en route »
Managed Spot Training

Ajustement automatique de modèle

Amazon SageMaker peut automatiquement régler votre modèle en ajustant des milliers de combinaisons différentes de paramètres d'algorithme pour arriver aux prédictions les plus précises que le modèle est capable de produire, ce qui permet d'économiser des semaines d'efforts. L'ajustement automatique de modèle utilise le machine learning pour rapidement régler votre modèle afin que celui-ci soit aussi précis que possible. 

Mise en route »
Ajustement automatique du modèle

Déployer les modèles en production

Amazon SageMaker facilite la génération de prédictions en fournissant tout ce dont vous avez besoin pour déployer des modèles de machine learning en production et contrôler la qualité des modèles dans le temps. 

Flux de travail automatiques

Amazon SageMaker Pipelines vous aide à créer, automatiser et gérer des flux de travail de ML de bout en bout à l'échelle en utilisant les pratiques de CI/CD. Une fois que les flux de travail sont créés, ils peuvent être visualisés et gérés dans SageMaker Studio. SageMaker Pipelines s'occupe de toutes les tâches lourdes liées à la gestion des dépendances entre chaque étape du flux de travail de ML. Vous pouvez à tout moment exécuter à nouveau des flux de travail complets avec des données mises à jour pour que vos modèles restent précis, et partager les flux de travail avec d'autres équipes pour collaborer sur des projets. 

En savoir plus »
SageMaker Pipelines

Suivre en continu les modèles

Amazon SageMaker Model Monitor détecte automatiquement les déviations de modèle et de concept et fournit des alertes détaillées qui aident à identifier la source du problème afin que vous puissiez améliorer la qualité du modèle au fil du temps. Tous les modèles entraînés dans SageMaker émettent automatiquement des métriques clés qui peuvent être collectées et visualisées dans SageMaker Studio.

En savoir plus »
SageMaker Model Monitor

Vérification humaine

Dans de nombreuses applications de machine learning, les utilisateurs doivent examiner les prédictions de faible confiance pour s’assurer de l’exactitude des résultats. Amazon Augmented AI fournit des flux de travail intégrant l’analyse humaine pour les utilisations courantes de machine learning.

Mise en route »

Transformation par lots

Amazon SageMaker Batch Transform élimine le besoin de redimensionner de grands ensembles de données pour les tâches de traitement par lots. Batch Transform vous permet d'exécuter des prédictions sur des données de lots de grande ou de petite taille en utilisant une API simple. 

Mise en route »

Points de terminaison à plusieurs modèles

Amazon SageMaker offre un moyen évolutif et rentable de déployer un grand nombre de modèles de machine learning personnalisés. SageMaker Multi-Model Endpoints vous permet de déployer plusieurs modèles en un seul clic sur un seul point de terminaison et de les servir en utilisant un seul conteneur de service.

Mise en route »

Ressources pour Amazon SageMaker pour les scientifiques des données

Une journée dans la peau d'un scientifique des données de machine learning chez JP Morgan Chase (34:41)