Amazon SageMaker HyperPod anuncia suporte a agentes de monitoramento de integridade para clusters de Slurm
Hoje, o Amazon SageMaker HyperPod anuncia a disponibilidade geral do agente de monitoramento de integridade para clusters de Slurm. O SageMaker HyperPod ajuda você a provisionar clusters resilientes para executar workloads de machine learning (ML) e desenvolver modelos de última geração, como grandes modelos de linguagem (LLMs), modelos de difusão e modelos de base (FMs). O agente de monitoramento de integridade realiza em segundo plano verificações passivas de integridade de instâncias para identificar problemas em áreas importantes sem afetar o comportamento ou a performance das aplicações, sinaliza instantaneamente as falhas e substitui eventuais instâncias não íntegras para manter o funcionamento normal das tarefas de treinamento.
O agente é executado continuamente em todos os nós baseados em GPU ou Trainium do cluster de HyperPod, observando problemas de hardware, como GPUs que não respondem ou contadores de erros do NVLink. Quando uma falha é detectada, o agente marca o nó como não íntegro e o reinicializa automaticamente ou o substitui por um nó íntegro, mantendo os trabalhos em execução sem exigir intervenção manual. O agente também segue uma abordagem coordenada para lidar com falhas na funcionalidade de retomada automática de trabalhos disponível nos clusters de Slurm. Por exemplo, os trabalhos com a retomada automática ativada continuarão a partir do último ponto de verificação salvo quando os nós forem substituídos pelo agente. Essa recuperação sem intervenção manual, já disponível em clusters de HyperPod orquestrados com o Amazon EKS, agora oferece aos clusters de Slurm o mesmo ambiente resiliente, ajudando as equipes a treinar grandes modelos por semanas sem interrupções e a recuperar tempo e custos que, de outra forma, seriam perdidos devido a falhas durante o treinamento. Além disso, os clientes já podem reinicializar nós usando um comando simples em caso de problemas intermitentes, como problemas no driver da GPU que exigem reinicialização.
O agente de monitoramento de integridade para Slurm está disponível em todas as regiões que oferecem o HyperPod ao público em geral. O agente é ativado automaticamente em todos os clusters de Slurm recém-criados. Para habilitá-lo em um cluster existente, basta fazer o upgrade para a AMI mais recente do HyperPod chamando a API UpdateClusterSoftware. Para saber mais, acesse a documentação do Amazon SageMaker HyperPod.