Presentazione del monitoraggio dello stato delle GPU e della riparazione automatica per le istanze gestite di Amazon ECS
Amazon Elastic Container Service (Amazon ECS) offre ora funzionalità di monitoraggio dello stato delle GPU NVIDIA e di riparazione automatica per le istanze gestite di Amazon ECS. La nuova funzionalità rileva automaticamente i guasti hardware critici delle GPU NVIDIA e sostituisce le istanze compromesse, aiutando i clienti a migliorare la disponibilità e l’affidabilità dei carichi di lavoro containerizzati accelerati da GPU.
L’esecuzione di carichi di lavoro accelerati da GPU, come l’inferenza GenAI, richiede una gestione hardware specializzata per mitigare i guasti e ridurre al minimo le interruzioni. Le istanze gestite di Amazon ECS ora monitorano continuamente lo stato delle GPU utilizzando NVIDIA Data Center GPU Manager (DCGM) e sostituiscono in modo proattivo la capacità compromessa quando si verificano guasti critici. È possibile monitorare lo stato delle GPU tramite l’API DescribeContainerInstances e ricevere notifiche tramite Amazon EventBridge quando le istanze risultano compromesse. Per i carichi di lavoro in cui preferisci gestire manualmente il ciclo di vita delle istanze, puoi disattivare la riparazione automatica a livello di fornitore di capacità e gestire gli eventi di errore della GPU con la tua logica di correzione.
La riparazione automatica dello stato delle GPU è abilitata per impostazione predefinita su tutte le istanze gestite Amazon ECS in esecuzione su tipi di istanza GPU NVIDIA supportati, senza costi aggiuntivi. Questa funzionalità è disponibile in tutte le regioni AWS commerciali. Per ulteriori informazioni, consulta la guida per gli sviluppatori di Amazon ECS.