Amazon SageMaker HyperPod ora supporta le azioni sui nodi dalla console
Amazon SageMaker HyperPod ora consente la gestione dei singoli nodi del cluster direttamente dalla console AWS. Gli operatori di cluster HyperPod che gestiscono carichi di lavoro AI/ML su larga scala spesso devono connettersi ai nodi per la risoluzione dei problemi, riavviare le istanze che non rispondono o sostituire i nodi danneggiati. In precedenza le connessioni ai nodi richiedevano la creazione manuale di stringhe di connessione SSM, mentre le azioni di ripristino dei nodi, come il riavvio e la sostituzione, richiedevano i comandi CLI; ora la console fornisce un'unica interfaccia per gestire tutte le operazioni sui nodi.
Grazie alle azioni sui nodi disponibili nella console ora è possibile connettersi a qualsiasi nodo tramite AWS Systems Manager (SSM). La console mette a disposizione comandi CLI SSM precompilati con funzionalità di copia negli appunti e avvio diretto delle sessioni SSM dalla console. Sebbene i cluster SageMaker HyperPod supportino già la sostituzione e il riavvio automatici delle istanze non integre, esistono scenari non rilevabili, come sovraccarichi di memoria o deterioramento dell'hardware, che potrebbero richiedere un intervento manuale. Ora le azioni sui nodi nella console forniscono un approccio uniforme per riavviare manualmente i nodi e ripristinarli da problemi transitori, eliminare i nodi non integri e sostituirli, sfruttando operazioni batch che supportano più azioni simultanee sui nodi, riducendo i tempi di risoluzione a pochi minuti. Questa funzionalità è particolarmente utile per i carichi di lavoro di addestramento e inferenza IA sensibili al fattore tempo, in cui ridurre al minimo i tempi di inattività è un requisito fondamentale.
Questa funzionalità è disponibile in tutte le regioni AWS in cui è supportato Amazon SageMaker HyperPod. È possibile eseguire tutte queste azioni sui nodi nella pagina di gestione del cluster HyperPod sulla console. Fai clic sui rispettivi link per maggiori informazioni su sostituzione o riavvio e sulla connessione a un nodo.