Amazon SageMaker HyperPod agora oferece suporte ao provisionamento contínuo para clusters orquestrados pelo Slurm

Publicado: 25 de mar de 2026

O Amazon SageMaker HyperPod agora estende o suporte ao provisionamento contínuo para clusters que usam o orquestrador do Slurm, o que oferece maior flexibilidade e eficiência para clientes corporativos que executam workloads de treinamento de IA/ML em grande escala. Os clientes de IA/ML que executam clusters baseados no Slurm precisam começar o treinamento rapidamente, escalar sem problemas, realizar manutenção sem interromper as operações e ter visibilidade granular das operações do cluster. Anteriormente, se algum grupo de instâncias não pudesse ser totalmente provisionado, toda a operação de criação ou escalabilidade do cluster falhava e era revertida, o que causava atrasos e exigia intervenção manual.

Com o provisionamento contínuo para o Slurm, o SageMaker HyperPod provisiona automaticamente a capacidade restante em segundo plano, enquanto as tarefas de treinamento podem começar imediatamente nas instâncias disponíveis. O sistema usa provisionamento baseado em prioridade para iniciar primeiro o nó controlador do Slurm, seguido pelos nós de login e de processamento em paralelo, para que seu cluster atinja um estado operacional o mais rápido possível. O HyperPod tenta iniciar novamente os nós que falharam de forma assíncrona e adiciona automaticamente nós ao cluster do Slurm assim que eles se tornam disponíveis, para garantir que os clusters alcancem de forma confiável a escala desejada sem exigir intervenção manual. Agora você pode realizar operações de escalabilidade simultânea e sem bloqueio em vários grupos de instâncias ao mesmo tempo. A falta de capacidade em um grupo de instâncias não bloqueia mais a escalabilidade em outros. Esses recursos ajudam os clientes a reduzir o tempo de treinamento, maximizar a utilização dos recursos e se concentrar na inovação em vez do gerenciamento da infraestrutura.

Esse recurso está disponível para novos clusters do SageMaker HyperPod que usam o orquestrador do Slurm. Você pode ativar o provisionamento contínuo definindo o parâmetro NodeProvisioningMode como “Continuous” (Contínuo) ao criar novos clusters do HyperPod usando a API CreateCluster. O provisionamento contínuo também pode ser ativado ao criar novos clusters por meio da AWS CLI e do console de SageMaker AI.

Esse atributo está disponível em todas as regiões da AWS nas quais o Amazon SageMaker HyperPod é oferecido. Para saber mais sobre o provisionamento contínuo para clusters do Slurm, consulte o Guia do usuário do Amazon SageMaker HyperPod.