Clusters de Slurm do Amazon SageMaker HyperPod já permitem especificar requisitos mínimos de capacidade com provisionamento contínuo

Publicado: 27 de mai de 2026

Agora, o Amazon SageMaker HyperPod permite especificar requisitos mínimos de capacidade (MinCount) para clusters que usam a orquestração do Slurm com provisionamento contínuo. Com o provisionamento contínuo, o HyperPod provisiona clusters com capacidade parcial disponível para que você possa iniciar rapidamente trabalhos de IA/ML, mas continua a provisionar as instâncias restantes de forma assíncrona em segundo plano. Esse recurso oferece flexibilidade, mas algumas workloads de treinamento exigem um número mínimo garantido de nós para serem iniciadas de forma eficaz. O MinCount permite que você especifique o número mínimo de instâncias que devem ser provisionadas antes que um grupo de instâncias passe para o status InService. Dessa forma, você tem mais controle sobre quando o cluster ficará disponível para agendamento de trabalhos.

Isso é particularmente útil para workloads de treinamento distribuídas que usam estruturas como PyTorch FSDP, Megatron-LM ou NVIDIA NeMo, em que normalmente as tarefas de treinamento são configuradas com um número fixo de nós participantes e podem não iniciar de forma eficiente ou correta com uma capacidade parcial do cluster. Além disso, beneficia equipes que precisam garantir uma contagem básica de GPUs para cumprir as metas de SLA ou de eficiência de custos antes de se comprometerem com um treinamento.

Você pode especificar MinInstanceCount na solicitação da API CreateCluster ou UpdateCluster para definir um limite mínimo de capacidade para um grupo de instâncias. O grupo de instâncias permanece no status de Criando ou Atualizando até que o limite seja atingido, quando faz a transição para InService e os nós ficam disponíveis para o agendamento de trabalhos do Slurm. O HyperPod continua iniciando instâncias adicionais além de MinCount até que a contagem pretendida seja atingida. Se não for possível alcançar o MinCount em 3 horas, o sistema reverterá automaticamente o grupo de instâncias para seu último estado válido conhecido.

O MinCount para clusters de Slurm com provisionamento contínuo estão disponíveis em todas as regiões da AWS que oferecem o Amazon SageMaker HyperPod. Para começar a especificar os requisitos mínimos de capacidade de clusters, consulte Minimum capacity requirements (MinCount) na documentação do Amazon SageMaker AI.