Les clusters Amazon SageMaker HyperPod Slurm permettent désormais de spécifier des exigences de capacité minimales avec un provisionnement continu

Publié le: 27 mai 2026

Amazon SageMaker HyperPod prend désormais en charge les exigences de capacité minimale (MinCount) pour les clusters utilisant l’orchestration Slurm avec provisionnement continu. Grâce au provisionnement continu, HyperPod provisionne des clusters dotés d’une capacité partielle disponible afin que vous puissiez démarrer rapidement vos tâches d’IA/ML, tout en continuant à provisionner les instances restantes de manière asynchrone en arrière-plan. Bien que cela apporte de la flexibilité, certaines charges de travail de formation nécessitent un nombre minimum garanti de nœuds avant de pouvoir démarrer efficacement. MinCount vous permet de spécifier le nombre minimum d’instances qui doivent être correctement provisionnées avant qu’un groupe d’instances ne passe au statut InService, ce qui vous permet de mieux contrôler le moment où votre cluster devient disponible pour la planification des tâches.

Cela est particulièrement utile pour les charges de travail de formation distribuées utilisant des frameworks tels que PyTorch FSDP, Megatron-LM ou NVIDIA NeMo, où les tâches d’entraînement sont généralement configurées avec un nombre fixe de nœuds participants et peuvent ne pas démarrer efficacement ou correctement avec une capacité de cluster partielle. Cela profite également aux équipes qui doivent garantir un nombre de GPU de référence pour atteindre les objectifs de SLA ou de rentabilité avant de s’engager dans une séance d’entraînement.

Vous pouvez spécifier MinInstanceCount dans la demande d’API CreateCluster ou UpdateCluster afin de définir un seuil de capacité minimum pour un groupe d’instances. Le groupe d’instances reste sur le statut Creating (En cours de création) ou Updating (En cours de mise à jour) jusqu’à ce que le seuil soit atteint, puis passe à InService (En service) et les nœuds deviennent disponibles pour la planification des tâches Slurm. HyperPod continue de lancer des instances supplémentaires au-delà de MinCount jusqu’à ce que le nombre cible soit atteint. Si la capacité MinCount ne peut pas être satisfaite dans les trois heures, le système ramène automatiquement le groupe d’instances à son dernier état de fonctionnement connu.

Les clusters MinCount pour Slurm avec provisionnement continu sont disponibles dans toutes les régions AWS où Amazon SageMaker HyperPod est pris en charge. Pour commencer à spécifier les exigences de capacité minimales pour votre cluster, consultez la section Exigences de capacité minimale (MinCount) dans la documentation relative à Amazon SageMaker AI.