Publié le: Dec 8, 2020
Nous sommes ravis d'annoncer de nouvelles capacités avec Amazon SageMaker Debugger avec la surveillance en temps réel des ressources du système pour une utilisation efficace. Grâce à ces nouvelles fonctionnalités, vous pouvez désormais obtenir des recommandations automatiques pour réaffecter les ressources à vos tâches d’entraînement, ce qui vous aide à mieux vous entraîner, à gagner du temps et à réduire les coûts.
Amazon SageMaker Debugger est une fonctionnalité d’Amazon SageMaker qui permet d’entraîner plus rapidement les modèles ML en capturant des métriques en temps réel telles que les gradients et les pondérations d’entraînement, en apportant une transparence dans le processus d’entraînement, afin que vous puissiez corriger les anomalies telles que les pertes, le sur-ajustement et le sur-entraînement. SageMaker Debugger fournit des techniques intégrées appelées règles pour analyser facilement les données émises, y compris les tenseurs, qui sont essentielles à la réussite des tâches d’entraînement, comme l'identification de la raison pour laquelle votre modèle ML prédit un feu de circulation droit comme étant à gauche alors qu’il a été entraîné avec une précision de plus de 90 %.
Avec les nouvelles fonctionnalités de profilage, SageMaker Debugger surveille désormais automatiquement les ressources système telles que le processeur, l’unité GPU, le réseau, les E/S et la mémoire, offrant une vue complète de l'utilisation des ressources des tâches d’entraînement. Vous pouvez également établir le profil de l'ensemble de votre tâche d’entraînement, ou des parties de celui-ci, afin d'émettre des métriques de framework détaillées au cours des différentes phases de la tâche d’entraînement. Les métriques de framework sont des métriques capturées dans le script d’entraînement, comme la durée des étapes, le chargement des données, le prétraitement et le temps d'exécution opérateur des processeurs et des unités GPU. SageMaker Debugger met en corrélation les métriques du système et du framework, ce qui vous permet d’identifier les causes racines des problèmes tels que la baisse de l'utilisation des unités GPU jusqu'à zéro, afin que vous puissiez inspecter vos scripts d’entraînement et résoudre les problèmes de manière appropriée. Vous pouvez réaffecter les ressources en fonction des recommandations du rapport de profilage, ce qui permet d'améliorer le temps d’entraînement et de réduire les coûts. Les métriques et les informations sont capturées et contrôlées par programme à l'aide du kit SDK SageMaker Python ou visuellement avec Amazon SageMaker Studio.
Amazon SageMaker Debugger est maintenant généralement disponible dans toutes les régions AWS d'Amérique et d'Europe, et dans certaines régions d'Asie Pacifique, et bientôt dans d’autres régions. Pour plus d’informations, consultez la documentation qui contient également des exemples de blocs-notes. Pour savoir comment utiliser la nouvelle fonctionnalité de profilage dans SageMaker Debugger, consultez l’article de blog.