Amazon SageMaker HyperPod fournit désormais une observabilité complète pour les groupes d'instances restreints

Publié le: 4 mars 2026

Amazon SageMaker HyperPod offre désormais une observabilité complète pour les groupes d'instances restreints (RIG), ce qui permet aux équipes qui forment des modèles de fondation avec Nova Forge d'obtenir une visibilité approfondie sur leurs ressources de calcul et leurs charges de travail de formation. Cette nouvelle fonctionnalité élimine l'effort manuel de collecte et de corrélation des métriques sur l'ensemble de l'infrastructure, fournissant une vue unifiée des performances du GPU, de l'intégrité du système, du débit réseau et de l'intégrité du cluster Kubernetes via un tableau de bord Amazon Managed Grafana préconfiguré soutenu par le service géré Amazon pour Prometheus.

Vous pouvez désormais surveiller l'utilisation du GPU, la bande passante NVLink, la pression du processeur, l'utilisation de FSx pour Lustre et le cycle de vie des pods à partir d'un seul tableau de bord Grafana grâce à des métriques collectées auprès de quatre exportateurs couvrant les performances du GPU, l'intégrité du système au niveau de l'hôte, la structure du réseau et l'intégrité des objets Kubernetes. En outre, des journaux sélectionnés sont automatiquement mis à disposition dans ces tableaux de bord, ce qui permet de couvrir la progression de l'époque, les journaux d'entraînement par étapes, les erreurs de pipeline et les retracements Python, afin que vous puissiez diagnostiquer rapidement les échecs d'entraînement. L'observabilité HyperPod pour les groupes d'instances restreints est automatiquement activée lorsque vous créez un nouveau cluster à l'aide de RIG, ou peut être activée pour les clusters existants en quelques clics dans la console de gestion des clusters HyperPod.

L'observabilité d'Amazon SageMaker HyperPod RIG est disponible dans toutes les régions AWS où SageMaker HyperPod RIG est pris en charge. Pour en savoir plus, consultez la documentation.

Amazon SageMaker HyperPod fournit désormais une observabilité complète pour les groupes d'instances restreints

Apprendre

Ressources

Développeurs

Aide