Publié le: Mar 11, 2024

Amazon CloudWatch Container Insights avec l’observabilité améliorée pour EKS détecte désormais automatiquement les métriques critiques en matière d’état et de performances de vos GPU NVIDIA, et les retranscrit dans des tableaux de bord automatiques afin de permettre une identification et un dépannage plus rapides des problèmes de vos charges de travail d'IA et de machine learning. Container Insights avec l’observabilité améliorée vous fournit des tendances et des modèles prêts à l'emploi en matière d’état de votre infrastructure et supprime les frais liés à la configuration manuelle des tableaux de bord et des alarmes, ce qui vous permet d'économiser du temps et des ressources.

Grâce à l'observabilité améliorée de Container Insights, vous pouvez désormais facilement comprendre si les GPU et la mémoire de vos instances accélérées sont sains, et vous assurer que vos tâches de formation restent performantes. Vous pouvez facilement identifier les erreurs et les analyser rapidement pour en identifier la cause première tout en minimisant les interruptions prolongées de vos tâches de formation. Enhanced Container Insights offre une observabilité informatique accélérée dans des visualisations organisées et vous permet de contrôler facilement l'efficacité de vos ressources dans vos modèles de formation distribués, mais aussi d'optimiser vos allocations en conséquence.

Il est facile de se lancer dans l’observabilité informatique accélérée. Vous pouvez intégrer Enhanced Container Insights soit en installant le module complémentaire CloudWatch Observability dans vos clusters, soit en installant manuellement l’agent CloudWatch pour bénéficier d'une observabilité améliorée. Une fois l’outil configuré, vous pouvez accéder à la console Container Insights et consulter la télémétrie prête à l'emploi de votre GPU NVIDIA.

Les métriques des GPU NVIDIA sont désormais disponibles dans Container Insights avec une observabilité améliorée pour EKS dans toutes les régions AWS publiques, y compris les régions AWS GovCloud (US) et Chine. Les statistiques des GPU NVIDIA suivent la tarification basée sur l'observation. Consultez la page de tarification de Container Insights pour en savoir plus. Pour en savoir plus, consultez le Guide de l’utilisateur de Container Insights.

22/04 - L’article a été mis à jour pour fournir des instructions sur l'expérience de démarrage manuel.