Amazon SageMaker HyperPod ora supporta il riavvio e la sostituzione programmatica dei nodi
Oggi Amazon SageMaker HyperPod rende disponibile al pubblico le nuove API che consentono il riavvio programmatico e la sostituzione dei nodi del cluster SageMaker HyperPod. SageMaker HyperPod consente di creare cluster resilienti per l'esecuzione di carichi di lavoro di machine learning (ML) e lo sviluppo di modelli all'avanguardia come i modelli linguistici di grandi dimensioni (LLM), i modelli di diffusione e i modelli di fondazione (FM). Le nuove API BatchRebootClusterNodes e BatchReplaceClusterNodes consentono ai clienti di riavviare o sostituire in modo programmatico i nodi del cluster che non rispondono o sono degradati, fornendo un approccio coerente e indipendente dall'orchestratore per le operazioni di ripristino dei nodi.
Le nuove API migliorano le funzionalità di gestione dei nodi per i cluster orchestrati di Slurm ed EKS, integrando i flussi di lavoro di riavvio e sostituzione dei nodi esistenti. I metodi esistenti specifici per l'orchestratore, come le etichette Kubernetes per i cluster EKS e i comandi Slurm per i cluster Slurm, rimangono disponibili insieme alle funzionalità programmatiche appena introdotte per le operazioni di riavvio e sostituzione tramite queste API appositamente progettate. Quando i nodi del cluster non rispondono a causa di problemi come sovraccarichi di memoria o degrado dell'hardware, potrebbero essere necessarie operazioni di ripristino come il riavvio e la sostituzione dei nodi, che possono essere avviate tramite queste nuove API. Queste funzionalità sono particolarmente utili quando si eseguono carichi di lavoro con vincoli temporali stringenti. Ad esempio, quando un nodo controller, di accesso o di calcolo di Slurm non risponde, gli amministratori possono avviare un'operazione di riavvio utilizzando l'API e monitorarne l'avanzamento per ripristinare lo stato operativo dei nodi. Analogamente, gli amministratori di cluster EKS possono sostituire in modo programmatico i nodi worker degradati. Ogni API supporta operazioni in batch fino a 25 istanze, consentendo una gestione efficiente di scenari di ripristino su larga scala.
Le API di riavvio e sostituzione sono attualmente supportate in tre regioni AWS in cui è disponibile SageMaker HyperPod: Stati Uniti orientali (Ohio), Asia Pacifico (Mumbai) e Asia Pacifico (Tokyo). Puoi accedere alle API tramite CLI, SDK o chiamate API di AWS. Per ulteriori informazioni, consulta la documentazione di Amazon SageMaker HyperPod per le API BatchRebootClusterNodes e BatchReplaceClusterNodes.