SageMaker HyperPod já oferece agendamento em grupo para workloads de treinamento distribuídas
Agora, a governança de tarefas do Amazon SageMaker HyperPod oferece suporte ao agendamento em grupo, o que garante que todos os pods necessários para uma tarefa de treinamento distribuído estejam prontos antes do início do treinamento. Os administradores podem configurar o agendamento em grupo para evitar o desperdício de computação causado por execuções parciais de tarefas e evitar os bloqueios decorrentes de tarefas que aguardam recursos.
Os cientistas de dados que executam tarefas de treinamento distribuídas de IA/ML em clusters do Amazon SageMaker HyperPod usando o orquestrador do EKS precisam que vários pods trabalhem em conjunto em vários nós com comunicação de pod a pod. Quando alguns pods são iniciados, mas outros não, as tarefas podem reter recursos sem avançar no processamento, bloquear outras workloads e aumentar os custos. O agendamento em grupo resolve isso monitorando todos os pods em uma workload e retirando a workload se um ou mais pods não estiverem prontos após um período especificado. As workloads retiradas são automaticamente colocadas na fila para evitar a paralisação. Os administradores podem ajustar as configurações no console do HyperPod, como o tempo de espera até que os pods estejam prontos, como lidar com falhas nos nós, se devem admitir as workloads uma por vez para evitar bloqueios em clusters ocupados e como as novas tentativas são agendadas.
Atualmente, esse recurso está disponível para clusters do Amazon SageMaker HyperPod que usam o orquestrador do EKS nas seguintes regiões da AWS: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (N. da Califórnia), Oeste dos EUA (Oregon), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Jacarta), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Estocolmo), Europa (Espanha) e América do Sul (São Paulo).
Para saber mais, acesse a página do SageMaker HyperPod e a documentação de governança de tarefas do HyperPod.