Amazon SageMaker HyperPod prend désormais en charge la gestion automatique de la topologie Slurm

Publié le: 23 avr. 2026

Amazon SageMaker HyperPod sélectionne désormais automatiquement et gère en permanence la configuration topologique réseau optimale pour les clusters Slurm en fonction des types d’instances GPU du cluster. La topologie du réseau a un impact direct sur les performances d’entraînement distribuées : lorsque les tâches sont placées sur des nœuds topologiquement proches, la communication GPU à GPU est plus rapide, les opérations collectives NCCL sont plus efficaces et le débit d’entraînement s’améliore. HyperPod adapte dynamiquement la topologie à mesure que le cluster évolue grâce à des opérations de mise à l’échelle et à des remplacements de nœuds, de sorte que le placement des tâches reste optimisé tout au long du cycle de vie du cluster sans nécessiter de mises à jour manuelles des fichiers de topologie ou de reconfiguration de Slurm.

HyperPod inspecte les types d’instances de tous les groupes d’instances lors de la création du cluster, identifie les caractéristiques de réseau et d’interconnexion de chaque type d’instance et sélectionne automatiquement le modèle de topologie le mieux adapté. HyperPod prend en charge la topologie arborescente pour les types d’instances dotés d’interconnexions hiérarchiques tels que ml.p5.48xlarge, ml.p5e.48xlarge et ml.p5en.48xlarge, et la topologie par blocs pour les types d’instances dotés d’une connectivité uniforme à bande passante élevée, tels que ml.p6e-gb200.NVL72. Pour les clusters comportant des types d’instances mixtes, HyperPod sélectionne une topologie compatible qui fonctionne sur tous les nœuds. Lorsque le cluster change à la suite d’événements de mise à l’échelle, de réduction verticale ou de remplacement de nœuds, HyperPod met automatiquement à jour la configuration topologique sans intervention manuelle, de sorte que la topologie reflète toujours l’état réel du cluster.

Pour commencer, créez un cluster SageMaker HyperPod Slurm avec les types d’instances GPU pris en charge. L’ordonnancement topologique est activé par défaut et ne nécessite aucune configuration.

Cette fonctionnalité est disponible dans toutes les régions AWS dans lesquelles Amazon SageMaker HyperPod est proposé. Pour en savoir plus sur l’ordonnancement topologique, consultez la documentation relative à Amazon SageMaker HyperPod