Amazon SageMaker HyperPod já oferece suporte ao gerenciamento automático da topologia do Slurm
O Amazon SageMaker HyperPod agora seleciona automaticamente e mantém continuamente a configuração ideal da topologia de rede para clusters do Slurm com base nos tipos de instâncias de GPU presentes no cluster. A topologia de rede afeta diretamente a performance do treinamento distribuído — quando os trabalhos são colocados em nós topologicamente próximos, a comunicação entre GPUs é mais rápida, as operações coletivas da NCCL são mais eficientes e o throughput de treinamento melhora. O HyperPod adapta dinamicamente a topologia conforme o cluster evolui por meio de operações de ajuste de escala e substituição de nós, para que a alocação de trabalhos permaneça otimizada durante todo o ciclo de vida do cluster, sem exigir atualizações manuais nos arquivos de topologia ou reconfiguração do Slurm.
O HyperPod inspeciona os tipos de instância em todos os grupos de instâncias durante a criação do cluster, identifica as características de rede e interconexão de cada tipo de instância e seleciona automaticamente o modelo de topologia mais adequado. O HyperPod oferece suporte à topologia em árvore para tipos de instância com interconexões hierárquicas, como ml.p5.48xlarge, ml.p5e.48xlarge e ml.p5en.48xlarge, e à topologia em bloco para tipos de instância com conectividade uniforme de alta largura de banda, como ml.p6e-gb200.NVL72. Para clusters com tipos de instância mistos, o HyperPod seleciona uma topologia compatível que funciona em todos os nós. À medida que o cluster muda por meio de eventos de aumento de escala, redução de escala ou substituição de nós, o HyperPod atualiza automaticamente a configuração da topologia sem intervenção manual, para que a topologia sempre reflita o estado real do cluster.
Para começar a usá-lo, crie um cluster do SageMaker HyperPod Slurm com os tipos de instância de GPU compatíveis. O agendamento com reconhecimento de topologia está habilitado por padrão e não requer configuração.
Esse atributo está disponível em todas as regiões da AWS nas quais o Amazon SageMaker HyperPod é oferecido. Para saber mais sobre o agendamento com reconhecimento de topologia, consulte a documentação do Amazon SageMaker HyperPod.