Amazon SageMaker HyperPod ora supporta le azioni sui nodi dalla console

Inserito il: 10 feb 2026

Amazon SageMaker HyperPod ora consente la gestione dei singoli nodi del cluster direttamente dalla console AWS. Gli operatori di cluster HyperPod che gestiscono carichi di lavoro AI/ML su larga scala spesso devono connettersi ai nodi per la risoluzione dei problemi, riavviare le istanze che non rispondono o sostituire i nodi danneggiati. In precedenza le connessioni ai nodi richiedevano la creazione manuale di stringhe di connessione SSM, mentre le azioni di ripristino dei nodi, come il riavvio e la sostituzione, richiedevano i comandi CLI; ora la console fornisce un'unica interfaccia per gestire tutte le operazioni sui nodi.

Grazie alle azioni sui nodi disponibili nella console ora è possibile connettersi a qualsiasi nodo tramite AWS Systems Manager (SSM). La console mette a disposizione comandi CLI SSM precompilati con funzionalità di copia negli appunti e avvio diretto delle sessioni SSM dalla console. Sebbene i cluster SageMaker HyperPod supportino già la sostituzione e il riavvio automatici delle istanze non integre, esistono scenari non rilevabili, come sovraccarichi di memoria o deterioramento dell'hardware, che potrebbero richiedere un intervento manuale. Ora le azioni sui nodi nella console forniscono un approccio uniforme per riavviare manualmente i nodi e ripristinarli da problemi transitori, eliminare i nodi non integri e sostituirli, sfruttando operazioni batch che supportano più azioni simultanee sui nodi, riducendo i tempi di risoluzione a pochi minuti. Questa funzionalità è particolarmente utile per i carichi di lavoro di addestramento e inferenza IA sensibili al fattore tempo, in cui ridurre al minimo i tempi di inattività è un requisito fondamentale.

Questa funzionalità è disponibile in tutte le regioni AWS in cui è supportato Amazon SageMaker HyperPod. È possibile eseguire tutte queste azioni sui nodi nella pagina di gestione del cluster HyperPod sulla console. Fai clic sui rispettivi link per maggiori informazioni su sostituzione o riavvio e sulla connessione a un nodo.