Amazon SageMaker HyperPod já oferece verificações de integridade detalhadas sob demanda

Publicado: 17 de abr de 2026

Agora, o Amazon SageMaker HyperPod oferece verificações de integridade detalhadas sob demanda para clusters orquestrados pelo Amazon EKS e pelo Slurm, permitindo que você verifique proativamente e a qualquer momento a integridade de aceleradores de GPU em instâncias em execução. Os clusters orquestrados pelo HyperPod Slurm agora também oferecem verificações de integridade detalhadas durante o provisionamento de nós, no momento da criação do cluster. Esse recurso aborda um desafio essencial: até mesmo um único nó com problemas de integridade pode desperdiçar horas de tempo de computação e atrasar workloads críticas.

Com as verificações de integridade detalhadas sob demanda, você pode direcionar grupos inteiros de instâncias ou instâncias específicas para executar testes de estresse de hardware e testes de conectividade abrangentes antes de alocar recursos de computação para um trabalho. O progresso e os resultados são visíveis no nível do grupo de instâncias e da instância por meio do console e das APIs do SageMaker, oferecendo visibilidade completa da integridade de GPUs, da conectividade de rede e do desempenho da comunicação com vários nós. As instâncias submetidas a verificações são isoladas automaticamente do agendamento de workloads e retornam ao serviço após a aprovação. Quando usadas em conjunto com o recurso de recuperação automática de nós do HyperPod, as instâncias que falham são automaticamente reinicializadas ou substituídas, garantindo a integridade do cluster.

Esse recurso está disponível em todas as regiões que oferecem o Amazon SageMaker HyperPod. Para saber mais sobre as verificações de integridade sob demanda, consulte a documentação.