Amazon SageMaker HyperPod introduce il provisioning continuo per i cluster orchestrati da Slurm

Inserito il: 25 mar 2026

Amazon SageMaker HyperPod estende il supporto al provisioning continuo ai cluster basati sull'orchestratore Slurm, offrendo maggiore flessibilità ed efficienza alle aziende che gestiscono carichi di lavoro di addestramento IA/ML su larga scala. I clienti IA/ML che operano su cluster Slurm necessitano di avviare l'addestramento in tempi rapidi, di scalare in modo fluido, di eseguire operazioni di manutenzione senza interruzioni operative e di disporre di visibilità dettagliata sulle attività del cluster. In precedenza qualora un gruppo di istanze non potesse essere sottoposto a provisioning completo, l'intera operazione di creazione o dimensionamento del cluster aveva esito negativo con conseguente rollback, causando ritardi e richiedendo interventi manuali.

Grazie al provisioning continuo per Slurm, SageMaker HyperPod gestisce automaticamente il provisioning della capacità residua in background, mentre i job di addestramento vengono avviati immediatamente sulle istanze già disponibili. Il sistema adotta un provisioning basato sulle priorità: il nodo controller di Slurm viene attivato per primo, seguito in parallelo dai nodi di accesso e dai nodi worker, riducendo al minimo il tempo necessario affinché il cluster raggiunga uno stato operativo. HyperPod gestisce in modo asincrono i nuovi tentativi per i nodi il cui avvio non è andato a buon fine e provvede ad aggiungere automaticamente i nodi al cluster Slurm non appena questi diventano disponibili, assicurando che i cluster raggiungano in modo affidabile la scala desiderata senza necessità di intervento manuale. È ora possibile eseguire operazioni di dimensionamento concorrenti e non bloccanti su più gruppi di istanze in parallelo: una carenza di capacità in un gruppo non compromette più le operazioni di dimensionamento negli altri gruppi. Queste funzionalità aiutano i clienti a ridurre i tempi di avvio dell'addestramento, ottimizzare l'utilizzo delle risorse e dedicarsi all'innovazione anziché alla gestione dell'infrastruttura.

La funzionalità è disponibile per i nuovi cluster SageMaker HyperPod basati sull'orchestratore Slurm. È possibile abilitare il provisioning continuo impostando il parametro NodeProvisioningMode su "Continuo" durante la creazione di nuovi cluster HyperPod tramite l'API CreateCluster. Il provisioning continuo è disponibile anche in fase di creazione di nuovi cluster, tramite la AWS CLI e la console SageMaker AI.

Questa funzionalità è disponibile in tutte le regioni AWS in cui è supportato Amazon SageMaker HyperPod. Per ulteriori informazioni sul provisioning continuo, consulta la guida utente di Amazon SageMaker HyperPod.