Amazon SageMaker HyperPod ora supporta controlli approfonditi di integrità su richiesta

Inserito il: 17 apr 2026

Amazon SageMaker HyperPod ora supporta controlli approfonditi di integrità su richiesta per cluster orchestrati con Amazon EKS e Slurm, consentendo di verificare in modo proattivo lo stato degli acceleratori GPU sulle istanze in esecuzione in qualsiasi momento. I cluster HyperPod orchestrati con Slurm ora supportano anche controlli approfonditi durante il provisioning dei nodi, in fase di creazione del cluster. Questa capacità risolve una criticità importante: anche un singolo nodo non integro può causare ore di spreco di calcolo e ritardi nei carichi di lavoro critici.

Con i controlli approfonditi su richiesta, è possibile verificare interi gruppi di istanze o singole istanze eseguendo test completi di stress hardware e connettività prima di assegnare risorse di calcolo a un job. I risultati e l’avanzamento sono visibili sia a livello di gruppo di istanze sia a livello di singola istanza tramite console e API di SageMaker, fornendo visibilità completa su stato GPU, connettività di rete e comunicazione multi-nodo. Le istanze sottoposte ai controlli vengono automaticamente isolate dalla schedulazione dei carichi di lavoro e reintegrate dopo il superamento dei test. Se combinate con la capacità di ripristino automatico dei nodi di HyperPod, le istanze non idonee vengono automaticamente riavviate o sostituite, garantendo la salute del cluster.

Questa funzionalità è disponibile in tutte le regioni in cui è disponibile Amazon SageMaker HyperPod. Per ulteriori informazioni, consulta la documentazione sui controlli di integrità su richiesta.

Amazon SageMaker HyperPod ora supporta controlli approfonditi di integrità su richiesta

Scopri

Risorse

Sviluppatori

Assistenza