Amazon SageMaker HyperPod já oferece suporte à configuração do Slurm baseada em API
Agora, o Amazon SageMaker HyperPod oferece a configuração do Slurm orientada por API, permitindo que você defina a topologia do Slurm e as configurações do sistema de arquivos compartilhado diretamente nas APIs de criação e atualização de cluster ou no Console da AWS. O SageMaker HyperPod ajuda você a provisionar clusters resilientes para executar workloads de machine learning (ML) e desenvolver modelos de última geração, como grandes modelos de linguagem (LLMs), modelos de difusão e modelos de base (FMs).
Com essa nova configuração orientada por API, agora você já pode especificar os tipos de nós Slurm, incluindo Controller, Login e Compute para grupos de instâncias de cluster, mapeamentos de grupos de instâncias para partições e montagens de sistema de arquivos do FSx para Lustre e FSx para OpenZFS por grupo de instâncias diretamente na definição da API do cluster ou na seção de configuração avançada no Console da AWS. Quando você modifica os mapeamentos de nós de partição diretamente nos arquivos de configuração nativos do Slurm para ajustar as atribuições de recursos do cluster, as configurações do nó de partição do Slurm podem apresentar variações em relação à visão do HyperPod. Um novo SlurmConfigStrategy no nível de cluster ajuda você a gerenciar as variações com três opções: Gerenciada, Substituir e Mesclar. A estratégia Gerenciada permite que você administre completamente os mapeamentos de grupos de instâncias para partições por meio da API ou do console e detecta automaticamente as variações nos mapeamentos de partição para nó durante operações de aumento ou redução da escala vertical. Quando uma variação é detectada, as atualizações do cluster são pausadas até que você a resolva. A estratégia é alternada para Substituir, a fim de forçar mapeamentos definidos pela API; para Mesclar, a fim de preservar as personalizações manuais; ou as configurações do Slurm são alteradas diretamente para se alinharem com o HyperPod.
A configuração do Slurm orientada por API está disponível em todas as regiões da AWS que oferecem o SageMaker HyperPod. Você pode começar a usar no Console de Gerenciamento da AWS, na AWS CLI, no AWS CloudFormation ou nos AWS SDKs. Para obter mais informações, consulte a documentação do Amazon SageMaker HyperPod para criar clusters usando o console ou a CLI, e a referência das APIs CreateCluster e UpdateCluster.