Amazon SageMaker HyperPod ora supporta la gestione automatica della topologia Slurm

Inserito il: 23 apr 2026

Amazon SageMaker HyperPod seleziona automaticamente e mantiene in modo continuo la configurazione di topologia di rete ottimale per i cluster Slurm in base ai tipi di istanza GPU presenti nel cluster. La topologia di rete influisce direttamente sulle prestazioni dell’addestramento distribuito: quando i job vengono collocati su nodi topologicamente vicini, la comunicazione GPU-to-GPU è più veloce, le operazioni collettive NCCL sono più efficienti e il throughput di training migliora. HyperPod adatta dinamicamente la topologia man mano che il cluster evolve tramite operazioni di scaling e sostituzione dei nodi, mantenendo il posizionamento dei job ottimizzato per tutto il ciclo di vita del cluster senza richiedere aggiornamenti manuali dei file di topologia o riconfigurazione di Slurm.

HyperPod analizza i tipi di istanza in tutti i gruppi di istanze al momento della creazione del cluster, identifica le caratteristiche di rete e interconnessione di ciascun tipo di istanza e seleziona automaticamente il modello di topologia più adatto. HyperPod supporta la topologia ad albero per tipi di istanza con interconnessioni gerarchiche come ml.p5.48xlarge, ml.p5e.48xlarge e ml.p5en.48xlarge, e la topologia a blocchi per tipi di istanza con connettività uniforme ad alta banda come ml.p6e-gb200.NVL72. Per cluster con tipi di istanza misti, HyperPod seleziona una topologia compatibile che funziona su tutti i nodi. Man mano che il cluster cambia tramite operazioni di scale-up, scale-down o sostituzione dei nodi, HyperPod aggiorna automaticamente la configurazione della topologia senza intervento manuale, assicurando che la topologia rifletta sempre lo stato effettivo del cluster.

Per iniziare, è necessario creare un cluster SageMaker HyperPod Slurm con tipi di istanza GPU supportati. La pianificazione basata sulla topologia è abilitata per impostazione predefinita e non richiede configurazioni.

Questa funzionalità è disponibile in tutte le regioni AWS in cui è supportato Amazon SageMaker HyperPod. Per ulteriori informazioni sulla pianificazione basata sulla topologia, consultare la documentazione di Amazon SageMaker HyperPod

Amazon SageMaker HyperPod ora supporta la gestione automatica della topologia Slurm

Scopri

Risorse

Sviluppatori

Assistenza