Amazon SageMaker HyperPod annuncia il supporto dell'agente di monitoraggio dell'integrità per i cluster Slurm
A partire da oggi, Amazon SageMaker HyperPod rende disponibile l'agente di monitoraggio dell'integrità per i cluster Slurm. SageMaker HyperPod consente di creare cluster resilienti per l'esecuzione di carichi di lavoro di machine learning (ML) e lo sviluppo di modelli all'avanguardia come i modelli linguistici di grandi dimensioni (LLM), i modelli di diffusione e i modelli di fondazione (FM). L'agente di monitoraggio esegue controlli passivi in background sull'integrità delle istanze per individuarne problemi in aree chiave senza impattare il comportamento o le prestazioni delle applicazioni. Segnala immediatamente eventuali errori e sostituisce le istanze non integre per garantire la continuità dei job di addestramento.
L'agente opera in modo continuo su tutti i nodi basati su GPU o Trainium del cluster HyperPod, monitorando problematiche hardware come GPU non rispondenti o contatori di errori NVLink. n caso di guasto, contrassegna il nodo come non integro e lo riavvia o sostituisce automaticamente con un nodo sano, mantenendo l'esecuzione dei job senza interventi manuali. Inoltre, l'agente integra la funzionalità di auto-resume per i cluster Slurm: i job con ripristino automatico attivato riprendono dall'ultimo checkpoint salvato dopo la sostituzione dei nodi. Questo approccio, già disponibile per i cluster HyperPod orchestrati con Amazon EKS, garantisce ai cluster Slurm lo stesso livello di resilienza, consentendo ai team di addestrare modelli di grandi dimensioni per settimane senza interruzioni, risparmiando tempo e costi altrimenti persi a causa di errori a metà esecuzione. I clienti possono anche riavviare i nodi con un semplice comando in caso di problemi intermittenti, come errori del driver GPU che richiedono un ripristino.
L'agente di monitoraggio dell'integrità per Slurm è disponibile in tutte le regioni in cui HyperPod è generalmente disponibile. È abilitato automaticamente su tutti i nuovi cluster Slurm; per abilitarlo su cluster esistenti, basta aggiornare all'ultima AMI HyperPod tramite l'API UpdateClusterSoftware. Per ulteriori informazioni, consulta la documentazione di Amazon SageMaker HyperPod.