Amazon SageMaker HyperPod agora oferece suporte à reinicialização e substituição programáticas de nós

Publicado: 26 de nov de 2025

Hoje, o Amazon SageMaker HyperPod anuncia a disponibilidade geral de novas APIs que permitem a reinicialização e a substituição programática de nós de cluster do SageMaker HyperPod. O SageMaker HyperPod ajuda você a provisionar clusters resilientes para executar workloads de machine learning (ML) e desenvolver modelos de última geração, como grandes modelos de linguagem (LLMs), modelos de difusão e modelos de base (FMs). As novas APIs BatchRebootClusterNodes e BatchReplaceClusterNodes permitem que os clientes reiniciem ou substituam programaticamente nós de cluster que não respondem ou estão degradados, fornecendo uma abordagem consistente e independente do orquestrador para operações de recuperação de nós.

As novas APIs aprimoram os recursos de gerenciamento de nós para clusters orquestrados pelo Slurm e EKS, complementando os fluxos de trabalho existentes de reinicialização e substituição de nós. Os métodos existentes específicos do orquestrador, como os rótulos do Kubernetes para clusters do EKS e os comandos do Slurm para clusters do Slurm, continuam disponíveis juntamente com os recursos programáticos recém-introduzidos para operações de reinicialização e substituição por meio dessas APIs desenvolvidas para essa finalidade. Quando os nós do cluster param de responder devido a problemas como sobrecarga de memória ou degradação de hardware, operações de recuperação, como reinicializações e substituições de nós, podem ser necessárias e podem ser iniciadas por meio dessas novas APIs. Esses recursos são particularmente valiosos ao executar workloads urgentes. Por exemplo, quando um controlador, login ou nó de computação do Slurm deixa de responder, os administradores podem acionar uma operação de reinicialização usando a API e monitorar seu progresso para que os nós voltem a funcionar normalmente. Da mesma forma, os administradores do cluster do EKS podem substituir programaticamente os nós de processamento degradados. Cada API aceita operações em lote de até 25 instâncias, permitindo o gerenciamento eficiente de cenários de recuperação em grande escala.

Atualmente, há suporte para as APIs de reinicialização e substituição em três regiões da AWS nas quais o SageMaker HyperPod está disponível: Leste dos EUA (Ohio), Ásia-Pacífico (Mumbai) e Ásia-Pacífico (Tóquio). As APIs podem ser acessadas por meio da AWS CLI, do SDK ou das chamadas de API. Para obter mais informações, consulte a documentação do Amazon SageMaker HyperPod para BatchRebootClusterNodes e BatchReplaceClusterNodes.