Amazon SageMaker HyperPod annonce la prise en charge des agents de surveillance de l'état des clusters Slurm

Publié le: 15 sept. 2025

Amazon SageMaker HyperPod annonce aujourd'hui la disponibilité générale de l'agent de surveillance de l'état pour les clusters Slurm. SageMaker HyperPod vous aide à mettre en place des clusters résilients pour exécuter des charges de travail de machine learning (ML) et développer des modèles de pointe tels que des grands modèles de langage (LLM), des modèles de diffusion et des modèles de fondation (FM). L'agent de surveillance de l'état effectue des contrôles passifs de l'état des instances afin d'identifier les problèmes dans des domaines clés sans impact sur le comportement ou les performances des applications, signale instantanément les défaillances et remplace toutes les instances défectueuses pour assurer le bon déroulement de vos tâches d'entraînement. 

L'agent s'exécute en continu sur tous les nœuds basés sur un GPU ou Trainium de votre cluster HyperPod, surveillant les problèmes matériels tels que les GPU qui ne répondent pas ou les compteurs d'erreurs NVLink. Lorsqu'un défaut est détecté, il marque le nœud comme étant défectueux et le redémarre automatiquement ou le remplace par un nœud sain, permettant ainsi à vos tâches de continuer à fonctionner sans intervention manuelle. L'agent suit également une approche coordonnée pour gérer les échecs grâce à la fonctionnalité de reprise automatique des tâches disponible avec les clusters Slurm. Par exemple, les tâches pour lesquelles la reprise automatique est activée se poursuivront à partir du dernier point de contrôle enregistré une fois que les nœuds seront remplacés par l'agent. Cette restauration mains libres, déjà disponible sur les clusters HyperPod orchestrés avec Amazon EKS, offre désormais aux clusters Slurm le même environnement résilient, aidant les équipes à former des grands modèles pendant des semaines sans interruption et à récupérer du temps et des coûts qui seraient autrement perdus en cas de panne en milieu d'exploitation. En outre, les clients peuvent désormais redémarrer leurs nœuds à l'aide d'une simple commande en cas de problèmes intermittents tels que des problèmes de pilote GPU nécessitant une réinitialisation. 

L'agent de surveillance de l'état de santé pour Slurm est disponible dans toutes les régions où HyperPod est généralement disponible. L'agent est activé automatiquement sur tous les clusters Slurm nouvellement créés ; pour l'activer sur un cluster existant, il vous suffit de passer à la dernière AMI HyperPod en appelant l'API UpdateClusterSoftware. Pour en savoir plus, consultez la documentation relative à Amazon SageMaker HyperPod.