Amazon SageMaker HyperPod offre ora funzionalità di risoluzione dei problemi per gli assistenti alla codifica basati sull'IA

Inserito il: 1 giu 2026

Amazon SageMaker HyperPod fornisce ora funzionalità di risoluzione dei problemi che portano la diagnostica dei cluster AI/ML di livello esperto direttamente negli assistenti alla codifica basati sull'intelligenza artificiale come Claude Code, Cursor e Kiro. SageMaker HyperPod è un'infrastruttura appositamente creata per lo sviluppo, l'addestramento e l'implementazione di modelli di base su larga scala. Fornisce un ambiente resiliente e performante con tolleranza ai guasti integrata e ripristino automatico dei cluster, riducendo il lavoro pesante e indifferenziato legato alla gestione dell'infrastruttura AI/ML su larga scala. Le funzionalità di HyperPod consentono di diagnosticare e risolvere i problemi dei cluster tramite il linguaggio naturale, riducendo il tempo e le competenze necessarie per la risoluzione dei problemi nelle infrastrutture di addestramento e inferenza distribuita.

Il debug dei guasti hardware delle GPU, la diagnosi degli errori di comunicazione NCCL e l'identificazione dei colli di bottiglia delle prestazioni nei cluster distribuiti di grandi dimensioni rimangono attività complesse che richiedono molto tempo. Gli operatori devono spesso connettersi manualmente ai nodi tramite SSM, analizzare i log di decine di istanze e fare riferimenti incrociati con la documentazione. Le nuove funzionalità di risoluzione dei problemi di HyperPod aiutano a velocizzare i tempi di risoluzione grazie a capacità che comprendono la convalida dello stato del cluster, la diagnostica dell'hardware e delle comunicazioni, il controllo dei disallineamenti delle versioni software e la reportistica diagnostica automatica. Ogni funzionalità codifica le best practice di AWS in flussi di lavoro diagnostici strutturati che guidano sistematicamente gli agenti di intelligenza artificiale a raccogliere prove dai nodi del cluster tramite AWS Systems Manager, analizzare i modelli e fornire raccomandazioni pratiche. Queste funzionalità sono pronte all'uso con l'infrastruttura HyperPod esistente, senza che sia necessaria alcuna modifica.

Le funzionalità di risoluzione dei problemi di HyperPod sono open source e disponibili oggi sia per i cluster HyperPod orchestrati con Slurm sia per quelli gestiti tramite Amazon EKS, utilizzando il plugin SageMaker AI skills. Per iniziare, visita il repository GitHub di AWSLabs per installare il plugin sagemaker-ai nel tuo assistente alla codifica preferito.