Amazon SageMaker HyperPod prend désormais en charge les actions de nœud depuis la console

Publié le: 10 févr. 2026

Amazon SageMaker HyperPod vous permet désormais de gérer des nœuds de cluster individuels directement depuis la console AWS. Les opérateurs de clusters HyperPod qui gèrent des charges de travail IA/ML à grande échelle doivent souvent se connecter à des nœuds pour résoudre des problèmes, redémarrer des instances qui ne répondent pas ou remplacer des nœuds dégradés. La connexion à un nœud nécessitait auparavant la création manuelle de chaînes de connexion SSM tandis que les actions de restauration de nœud telles que le redémarrage et le remplacement requéraient des commandes CLI. La console fournit désormais une interface unique pour toutes les actions de nœud.

Grâce aux actions de nœud dans la console, vous pouvez désormais vous connecter à n’importe quel nœud via AWS Systems Manager (SSM). La console fournit des commandes SSM CLI préremplies avec prise en charge de la copie dans le presse-papiers et le lancement direct de sessions SSM dans la console. Bien que les clusters SageMaker HyperPod prennent déjà en charge le remplacement et le redémarrage automatiques des instances défectueuses, certains scénarios tels que des dépassements de mémoire ou une dégradation matérielle indétectable peuvent nécessiter une intervention manuelle. Désormais, les actions de nœud de la console fournissent une approche cohérente pour redémarrer manuellement les nœuds afin de résoudre des problèmes transitoires, supprimer des nœuds défectueux et remplacer des nœuds, les opérations par lots prenant en charge plusieurs actions de nœud simultanément, ce qui vous permet de résoudre les problèmes de nœud en quelques minutes. Cette fonctionnalité est particulièrement utile lors de l’exécution de charges de travail d’entraînement et d’inférence d’IA sensibles au facteur temps, où il est essentiel de minimiser les durées d’indisponibilité.

Cette fonctionnalité est disponible dans toutes les régions AWS dans lesquelles Amazon SageMaker HyperPod est proposé. Vous pouvez effectuer toutes ces actions de nœud sur la page de gestion du cluster HyperPod sur la console. Cliquez sur les liens correspondants pour en savoir plus sur le remplacement/le redémarrage et la connexion à un nœud.