I cluster Amazon SageMaker HyperPod Slurm ora supportano la specifica dei requisiti minimi di capacità con il provisioning continuo
Amazon SageMaker HyperPod ora supporta i requisiti minimi di capacità (MinCount) per i cluster che utilizzano l'orchestrazione Slurm con il provisioning continuo. Con il provisioning continuo, HyperPod effettua il provisioning dei cluster con la capacità parziale disponibile in modo da poter avviare rapidamente i job AI/ML, continuando a fornire le istanze rimanenti in background in modo asincrono. Sebbene ciò offra flessibilità, alcuni carichi di lavoro di addestramento richiedono un numero minimo garantito di nodi prima di poter essere avviati in modo efficace. MinCount consente di specificare il numero minimo di istanze di cui è necessario eseguire correttamente il provisioning prima che un gruppo di istanze passi allo stato InService, offrendo un maggiore controllo sul momento in cui il cluster diventa disponibile per la pianificazione dei job.
Questo scenario è particolarmente utile per i carichi di lavoro di addestramento distribuito che utilizzano framework come PyTorch FSDP, Megatron-LM o NVIDIA NeMo, in cui i job di addestramento sono comunemente configurati con un numero fisso di nodi partecipanti e potrebbero non avviarsi in modo efficiente o corretto con una capacità parziale del cluster. Inoltre, offre vantaggi ai team che devono garantire un numero di GPU di base per soddisfare gli SLA o gli obiettivi di efficienza dei costi prima di impegnarsi in una sessione di addestramento.
È possibile specificare MinInstanceCount nella richiesta API CreateCluster o UpdateCluster per impostare una soglia di capacità minima per un gruppo di istanze. Il gruppo di istanze rimane nello stato Creating o Updating fino al raggiungimento della soglia, quindi passa a InService e i nodi diventano disponibili per la pianificazione dei job Slurm. HyperPod continua ad avviare istanze aggiuntive oltre a MinCount fino al raggiungimento del numero target. Se MinCount non può essere soddisfatto entro 3 ore, il sistema esegue automaticamente il rollback del gruppo di istanze all'ultimo stato valido noto.
Il parametro MinCount per i cluster Slurm con provisioning continuo è disponibile in tutte le regioni AWS in cui è supportato Amazon SageMaker HyperPod. Per iniziare a specificare i requisiti minimi di capacità per il cluster, consulta Requisiti minimi di capacità (MinCount) nella documentazione di Amazon SageMaker AI.