Amazon SageMaker HyperPod prend désormais en charge le provisionnement continu pour améliorer les clusters orchestrés par Slurm

Publié le: 25 mars 2026

Amazon SageMaker HyperPod étend désormais la prise en charge du provisionnement continu aux clusters à l’aide de l’orchestrateur Slurm, offrant ainsi une flexibilité et une efficacité accrues aux entreprises qui gèrent des charges de travail d’entraînement IA/ML à grande échelle. Les clients de l’IA et du ML exécutant des clusters basés sur Slurm doivent commencer à se former rapidement, se mettre à l’échelle de manière fluide, effectuer la maintenance sans perturber les opérations et disposer d’une visibilité granulaire sur les opérations du cluster. Auparavant, si un groupe d’instances ne pouvait pas être entièrement provisionné, l’opération complète de création ou de dimensionnement du cluster échouait et était annulée, ce qui entraînait des retards et nécessitait une intervention manuelle.

Grâce au provisionnement continu pour Slurm, SageMaker HyperPod provisionne automatiquement la capacité restante en arrière-plan, tandis que les tâches d’entraînement peuvent commencer immédiatement sur les instances disponibles. Le système utilise un provisionnement basé sur les priorités pour activer d’abord le nœud du contrôleur Slurm, puis les composants de travail et de travail en parallèle afin que votre cluster atteigne un état opérationnel le plus rapidement possible. HyperPod réessaie de lancer les nœuds qui ont échoué de manière asynchrone et ajoute automatiquement des nœuds au cluster Slurm dès qu’ils sont disponibles, garantissant ainsi que les clusters atteignent de manière fiable l’échelle souhaitée sans nécessiter d’intervention manuelle. Vous pouvez désormais effectuer des opérations de mise à l’échelle simultanées et non bloquantes sur plusieurs groupes d’instances en même temps : une pénurie de capacité dans un groupe d’instances ne bloque plus la mise à l’échelle des autres. Ces fonctionnalités aident les clients à réduire les délais de formation, à optimiser l’utilisation des ressources et à se concentrer sur l’innovation plutôt que sur la gestion de l’infrastructure.

Cette caractéristique est disponible pour les nouveaux clusters SageMaker HyperPod utilisant l’orchestrateur Slurm. Vous pouvez activer le provisionnement continu en définissant le paramètre NodeProvisioningMode sur « Continuous » lors de la création de nouveaux clusters HyperPod à l'aide de l'API CreateCluster. Le provisionnement continu peut également être activé lors de la création de nouveaux clusters via l’AWS CLI et la console SageMaker AI.

Cette fonctionnalité est disponible dans toutes les régions AWS dans lesquelles Amazon SageMaker HyperPod est proposé. Pour en savoir plus sur le provisionnement continu pour les clusters Slurm, consultez le Guide de l’utilisateur d’Amazon SageMaker HyperPod.