Amazon SageMaker Debugger

Optimiser les modèles de ML avec une surveillance en temps réel des métriques d'entraînement et des ressources système

Amazon SageMaker Debugger permet d'optimiser facilement les modèles de machine learning (ML) en capturant les métriques d'entraînement en temps réel comme la perte de données pendant la régression et l'envoi d'alertes lorsque des anomalies sont détectées. Cela vous permet de rectifier immédiatement les prédictions inexactes du modèle, telles qu'une identification incorrecte d'une image. SageMaker Debugger arrête automatiquement le processus d'entraînement lorsque la précision souhaitée est atteinte, ce qui réduit le temps et le coût d'entraînement des modèles de ML.

NOUVEAU ! Amazon SageMaker Debugger peut désormais vous aider à entraîner les modèles plus rapidement en profilant et en surveillant automatiquement l'utilisation des ressources du système et en envoyant des alertes lorsque des goulots d'étranglement des ressources tels que des CPU surutilisés sont identifiés. Vous pouvez surveiller visuellement et profiler les ressources système, y compris les CPU, les GPU, le réseau et la mémoire, pendant l'entraînement dans Amazon SageMaker Studio afin d'améliorer continuellement l'utilisation des ressources. SageMaker Debugger établit une corrélation entre l'utilisation des ressources du système et les différentes phases de la tâche d'entraînement et pour des moments spécifiques de l'entraînement. Il fournit des recommandations sur la façon d'ajuster l'utilisation des ressources pour vous aider à réaffecter les ressources pour une efficacité maximale. La surveillance et le profilage fonctionnent avec tous les principaux frameworks de deep learning, y compris PyTorch et TensorFlow, sans qu'il soit nécessaire de modifier le code de vos scripts d'entraînement. La surveillance et le profilage des ressources système s'effectuent en temps réel, ce qui vous aide à optimiser vos modèles de ML plus rapidement et à l'échelle.

Détection, analyse et alertes automatiques

Amazon SageMaker Debugger peut réduire le dépannage pendant l'entraînement de plusieurs jours à quelques minutes. Il détecte automatiquement les erreurs d'entraînement courantes, telles que les valeurs de gradient trop grandes ou trop petites, et vous alerte pour y remédier. Les alertes peuvent être consultées dans Amazon SageMaker Studio ou configurées via Amazon CloudWatch. De plus, le kit SDK de SageMaker Debugger vous permet de détecter automatiquement de nouvelles classes d'erreurs spécifiques au modèle, telles que l'échantillonnage des données, les valeurs d'hyperparamètres et les valeurs hors limites.

Surveillance et profilage

Amazon SageMaker Debugger surveille automatiquement l'utilisation des ressources système telles que les GPU, les CPU, le réseau et la mémoire, et profile vos tâches d'entraînement afin de collecter des métriques détaillées du framework de ML. Vous pouvez inspecter visuellement toutes les métriques des ressources via SageMaker Studio. Les anomalies dans l'utilisation des ressources sont corrélées à des opérations spécifiques pour l'identification des goulets d'étranglement tels que les CPU surutilisés afin que vous puissiez prendre rapidement des mesures correctives. De plus, un rapport détaillé peut être téléchargé pour une analyse hors ligne. Les exécutions d'entraînement peuvent être profilées soit au début de la tâche d'entraînement, soit à tout moment pendant la progression de l'entraînement.

Analyse intégrée

Amazon SageMaker Debugger est doté d'un système d'analyse intégré qui analyse automatiquement les données émises pendant l'entraînement, telles que les entrées, les sorties et les transformations appelées tenseurs. Ainsi, vous pouvez détecter si un modèle est surajusté ou surentraîné, si les gradients deviennent trop grands ou trop petits, si les ressources GPU sont sous-utilisées, et d'autres goulots d'étranglement pendant l'entraînement. Avec SageMaker Debugger, vous pouvez également créer vos propres conditions personnalisées pour tester des comportements spécifiques dans vos tâches d'entraînement. Ces conditions peuvent déclencher des actions telles que l'arrêt d'une tâche d'entraînement et l'envoi d'un SMS ou d'un e-mail. L'arrêt précoce des tâches d'entraînement aidera à réduire les coûts d'entraînement pour les modèles sous-optimaux et à développer plus rapidement de meilleurs prototypes.

Prise en charge étendue des algorithmes de ML et des frameworks de DL

Amazon SageMaker Debugger prend en charge les frameworks de ML, notamment TensorFlow, PyTorch, Apache MXNet, Keras et XGBoost. Les conteneurs intégrés de SageMaker pour ces frameworks sont préinstallés avec SageMaker Debugger, ce qui vous permet de surveiller, profiler et déboguer facilement vos scripts d'entraînement. Par défaut, SageMaker Debugger surveille l'utilisation du matériel système et les pertes pendant l'entraînement sans écrire de code supplémentaire pour surveiller chaque ressource séparément.

Intégration à AWS Lambda

Amazon SageMaker Debugger est intégré à AWS Lambda afin que vous puissiez agir sur les résultats des alertes. Par exemple, les fonctions d'AWS Lambda peuvent arrêter automatiquement une tâche d'entraînement lorsqu'une action non convergente, telle que des pertes qui augmentent continuellement plutôt que de diminuer au fil du temps, est détectée. AWS Lambda fournit des notifications pour arrêter les tâches d'entraînement afin que vous puissiez réduire les coûts et obtenir les résultats souhaités au cours des premières étapes du développement et de l'entraînement de ML.

Clients

Mobileye est un leader mondial de l'assistance à la conduite et de la technologie des véhicules autonomes avec plus de 60 millions de véhicules dotés de la technologie Mobileye.

« De nombreuses technologies de conduite assistée et de véhicules autonomes que nous développons chez Mobileye (officiellement connu sous le nom de Mobileye, une société Intel) reposent sur l'entraînement de modèles de réseaux de neurones profonds pour détecter une grande variété d'artefacts routiers, notamment les véhicules, les piétons, les ralentisseurs, les panneaux de signalisation, etc. Souvent, ces modèles s'entraînent sur des ensembles de données extrêmement volumineux, sur plusieurs machines et pendant des périodes pouvant aller jusqu'à plusieurs jours. Pour nous, chez Mobileye, il est impératif que nous disposions d'une boîte à outils avec des possibilités avancées de profilage des performances, pour analyser le flux de données à travers le réseau, les ressources CPU et GPU, et pour identifier les problèmes de performances. La fonctionnalité de profilage d'Amazon SageMaker Debugger fournit exactement cela, en retirant le profilage des performances du domaine de quelques experts spécialisés et en permettant à nos développeurs d'algorithmes de maximiser l'utilisation des ressources d'entraînement, d'accélérer la convergence des modèles et de réduire les coûts. »

Chaim Rand, développeur d'algorithmes de ML - Mobileye, une société Intel

Autodesk est un leader mondial des logiciels de conception, d'ingénierie et de divertissement 3D. Autodesk aide les utilisateurs à libérer leur créativité pour résoudre les problèmes de conception et transformer les idées en réalité.

« Chez Autodesk, nous tirons parti du machine learning pour améliorer nos solutions de conception et de fabrication afin d'offrir un plus grand degré de liberté créative à nos clients. À l'aide du machine learning, nous avons développé un nouveau filtre qui identifie et regroupe les résultats présentant des caractéristiques visuelles similaires afin de faciliter la recherche des meilleures options. Amazon SageMaker Debugger nous permet d'itérer sur ce modèle de manière beaucoup plus efficace en aidant à fermer la boucle de rétroaction, en faisant gagner un temps précieux aux scientifiques des données et en réduisant les heures d'entraînement de plus de 75 %. »

Alexander Carlson, ingénieur de ML - Autodesk

Change Healthcare est une société indépendante de premier plan dans le domaine des technologies de la santé qui fournit des données et des solutions analytiques pour améliorer les résultats cliniques, financiers et l'engagement des patients dans le système de santé américain.

« Chez Change Healthcare, nous travaillons en permanence avec nos prestataires de soins de santé pour éliminer les inefficacités dans le traitement des demandes de règlement de soins de santé. Nous recevons souvent de nos prestataires de soins de santé des formulaires de demande de règlement dont les étiquettes sont illisibles et la correction manuelle de ces formulaires ajoute du temps et des coûts au processus de règlement des demandes. Nous avons développé un modèle de deep learning multicouche qui superpose les étiquettes, ce qui nous aide dans ce processus. Amazon SageMaker Debugger nous aide à améliorer la précision du modèle grâce à des itérations rapides. Avec SageMaker Debugger, nous pouvons obtenir une meilleure compréhension des tenseurs, réaliser un entraînement de modèle résilient, aider à détecter les incohérences en temps réel et ajuster les paramètres du modèle pour une meilleure précision. »

Jayant Thomas, directeur principal, ingénierie de l'IA - Change Healthcare

Démarrez avec Amazon SageMaker Debugger