Amazon SageMaker HyperPod ora supporta la gestione automatica della topologia Slurm

Inserito il: 23 apr 2026

Amazon SageMaker HyperPod seleziona automaticamente e mantiene in modo continuo la configurazione di topologia di rete ottimale per i cluster Slurm in base ai tipi di istanza GPU presenti nel cluster. La topologia di rete influisce direttamente sulle prestazioni dell’addestramento distribuito: quando i job vengono collocati su nodi topologicamente vicini, la comunicazione GPU-to-GPU è più veloce, le operazioni collettive NCCL sono più efficienti e il throughput di training migliora. HyperPod adatta dinamicamente la topologia man mano che il cluster evolve tramite operazioni di scaling e sostituzione dei nodi, mantenendo il posizionamento dei job ottimizzato per tutto il ciclo di vita del cluster senza richiedere aggiornamenti manuali dei file di topologia o riconfigurazione di Slurm.

HyperPod analizza i tipi di istanza in tutti i gruppi di istanze al momento della creazione del cluster, identifica le caratteristiche di rete e interconnessione di ciascun tipo di istanza e seleziona automaticamente il modello di topologia più adatto. HyperPod supporta la topologia ad albero per tipi di istanza con interconnessioni gerarchiche come ml.p5.48xlarge, ml.p5e.48xlarge e ml.p5en.48xlarge, e la topologia a blocchi per tipi di istanza con connettività uniforme ad alta banda come ml.p6e-gb200.NVL72. Per cluster con tipi di istanza misti, HyperPod seleziona una topologia compatibile che funziona su tutti i nodi. Man mano che il cluster cambia tramite operazioni di scale-up, scale-down o sostituzione dei nodi, HyperPod aggiorna automaticamente la configurazione della topologia senza intervento manuale, assicurando che la topologia rifletta sempre lo stato effettivo del cluster.

Per iniziare, è necessario creare un cluster SageMaker HyperPod Slurm con tipi di istanza GPU supportati. La pianificazione basata sulla topologia è abilitata per impostazione predefinita e non richiede configurazioni.

Questa funzionalità è disponibile in tutte le regioni AWS in cui è supportato Amazon SageMaker HyperPod. Per ulteriori informazioni sulla pianificazione basata sulla topologia, consultare la documentazione di Amazon SageMaker HyperPod