Amazon SageMaker HyperPod prend désormais en charge le redémarrage et le remplacement programmatiques des nœuds

Publié le: 26 nov. 2025

Amazon SageMaker HyperPod annonce aujourd'hui la disponibilité générale de nouvelles API qui permettent le redémarrage par programmation et le remplacement des nœuds de cluster SageMaker HyperPod. SageMaker HyperPod vous aide à mettre en place des clusters résilients pour exécuter des charges de travail de machine learning (ML) et développer des modèles de pointe tels que des grands modèles de langage (LLM), des modèles de diffusion et des modèles de fondation (FM). Les nouvelles API BatchRebootClusterNodes et BatchReplaceClusterNodes permettent aux clients de redémarrer ou remplacer par programmation les nœuds de cluster qui ne répondent pas ou sont dégradés, offrant ainsi une approche cohérente et indépendante de l'orchestrateur pour les opérations de restauration des nœuds.

Les nouvelles API améliorent les capacités de gestion des nœuds pour les clusters orchestrés Slurm et EKS, complétant ainsi les flux de travail existants de redémarrage et de remplacement des nœuds. Les méthodes spécifiques à l'orchestrateur existantes, telles que les étiquettes Kubernetes pour les clusters EKS et les commandes Slurm pour les clusters Slurm, restent disponibles aux côtés des fonctionnalités programmatiques récemment introduites pour les opérations de redémarrage et de remplacement via ces API spécialement conçues. Lorsque les nœuds du cluster ne répondent plus en raison de problèmes tels que des dépassements de mémoire ou une dégradation matérielle, des opérations de restauration telles que le redémarrage et le remplacement des nœuds peuvent être nécessaires et peuvent être initiées via ces nouvelles API. Ces fonctionnalités sont particulièrement utiles lors de l'exécution de charges de travail urgentes. Par exemple, lorsqu'un contrôleur, une connexion ou un nœud de calcul Slurm ne répond plus, les administrateurs peuvent déclencher une opération de redémarrage à l'aide de l'API et surveiller sa progression pour remettre les nœuds en état de fonctionnement. De même, les administrateurs de clusters EKS peuvent remplacer les nœuds de travail dégradés par programmation. Chaque API prend en charge les opérations par lots sur un maximum de 25 instances, ce qui permet une gestion efficace des scénarios de restauration à grande échelle.

Les API de redémarrage et de remplacement sont actuellement prises en charge dans trois régions AWS où SageMaker HyperPod est disponible, à savoir USA Est (Ohio), Asie-Pacifique (Mumbai) et Asie-Pacifique (Tokyo). Les API sont accessibles via l'interface de ligne de commande AWS, le kit SDK ou des appels d'API. Pour en savoir plus, consultez la documentation Amazon SageMaker HyperPod pour BatchRebootClusterNodes et BatchReplaceClusterNodes.

Amazon SageMaker HyperPod prend désormais en charge le redémarrage et le remplacement programmatiques des nœuds

Apprendre

Ressources

Développeurs

Aide