Apresentação do monitoramento da integridade de GPUs e do reparo automático de instâncias gerenciadas do Amazon ECS
Agora, o Amazon Elastic Container Service (Amazon ECS) oferece o monitoramento da integridade de GPUs NVIDIA e a funcionalidade de reparo automático de instâncias gerenciadas do Amazon ECS. O novo recurso detecta automaticamente falhas críticas de hardware em GPUs NVIDIA e substitui instâncias comprometidas, ajudando os clientes a melhorar a disponibilidade e a confiabilidade de workloads conteinerizadas aceleradas por GPU.
A execução de workloads aceleradas por GPU, como inferências de GenAI, exige gerenciamento de hardware especializado para mitigar falhas e minimizar interrupções. Agora, as instâncias gerenciadas do Amazon ECS monitoram continuamente a integridade de GPUs usando o NVIDIA Data Center GPU Manager (DCGM) e substituem proativamente a capacidade prejudicada quando ocorrem falhas críticas. Você pode monitorar a integridade de GPUs por meio da API DescribeContainerInstances e receber notificações por meio do Amazon EventBridge quando as instâncias ficam comprometidas. Para workloads em que você prefere gerenciar manualmente o ciclo de vida da instância, é possível optar por não fazer o reparo automático no nível do provedor de capacidade e tratar os eventos de erro de GPU com sua própria lógica de remediação.
O reparo automático da integridade de GPUs é ativado por padrão em todas as instâncias gerenciadas do Amazon ECS executadas em tipos de instância de GPU NVIDIA compatíveis, sem custo adicional. Esse recurso está disponível nas regiões comerciais da AWS. Para saber mais, consulte o Guia do desenvolvedor do Amazon ECS.