Amazon SageMaker HyperPod ora supporta controlli approfonditi di integrità su richiesta
Amazon SageMaker HyperPod ora supporta controlli approfonditi di integrità su richiesta per cluster orchestrati con Amazon EKS e Slurm, consentendo di verificare in modo proattivo lo stato degli acceleratori GPU sulle istanze in esecuzione in qualsiasi momento. I cluster HyperPod orchestrati con Slurm ora supportano anche controlli approfonditi durante il provisioning dei nodi, in fase di creazione del cluster. Questa capacità risolve una criticità importante: anche un singolo nodo non integro può causare ore di spreco di calcolo e ritardi nei carichi di lavoro critici.
Con i controlli approfonditi su richiesta, è possibile verificare interi gruppi di istanze o singole istanze eseguendo test completi di stress hardware e connettività prima di assegnare risorse di calcolo a un job. I risultati e l’avanzamento sono visibili sia a livello di gruppo di istanze sia a livello di singola istanza tramite console e API di SageMaker, fornendo visibilità completa su stato GPU, connettività di rete e comunicazione multi-nodo. Le istanze sottoposte ai controlli vengono automaticamente isolate dalla schedulazione dei carichi di lavoro e reintegrate dopo il superamento dei test. Se combinate con la capacità di ripristino automatico dei nodi di HyperPod, le istanze non idonee vengono automaticamente riavviate o sostituite, garantendo la salute del cluster.
Questa funzionalità è disponibile in tutte le regioni in cui è disponibile Amazon SageMaker HyperPod. Per ulteriori informazioni, consulta la documentazione sui controlli di integrità su richiesta.