Apresentamos o treinamento elástico no Amazon SageMaker HyperPod
O Amazon SageMaker HyperPod agora oferece suporte ao treinamento elástico, o que permite às organizações acelerar o treinamento de modelos de base ao escalar automaticamente as workloads de treinamento com base na disponibilidade de recursos e nas prioridades da workload. Isso representa uma mudança fundamental em relação ao treinamento com um conjunto fixo de recursos, pois economiza horas de trabalho de engenharia gastas na reconfiguração de tarefas de treinamento com base na disponibilidade de recursos computacionais.
Anteriormente, qualquer alteração na disponibilidade de recursos computacionais exigia a interrupção manual do treinamento, a reconfiguração dos parâmetros de treinamento e a reinicialização das tarefas — um processo que exige conhecimento especializado em treinamento distribuído e deixa os onerosos aceleradores de IA ociosos durante a reconfiguração das tarefas de treinamento. O treinamento elástico expande automaticamente as tarefas de treinamento para absorver aceleradores de IA ociosos e se contrai perfeitamente quando workloads de maior prioridade precisam de recursos, tudo isso sem interromper totalmente o treinamento.
Ao eliminar a sobrecarga de reconfiguração manual e garantir a utilização contínua dos recursos computacionais disponíveis, o treinamento elástico pode ajudar a economizar o tempo gasto anteriormente no gerenciamento da infraestrutura, reduzir os custos com a maximização da utilização do cluster e acelerar o tempo de lançamento no mercado. O treinamento pode começar imediatamente com o mínimo de recursos e crescer de forma oportunista à medida que a capacidade se torna disponível.
O SageMaker HyperPod está disponível em todas as regiões que oferecem o Amazon SageMaker HyperPod atualmente. As organizações podem habilitar o treinamento elástico sem alterações de código usando as fórmulas do HyperPod para modelos disponíveis publicamente, incluindo Llama e GPT OSS. Para arquiteturas de modelos personalizados, os clientes podem integrar recursos de treinamento elásticos por meio de atualizações leves de configuração e modificações mínimas de código, o que as torna acessíveis às equipes sem exigir experiência em sistemas distribuídos.
Para começar a usá-lo, acesse a página do produto Amazon SageMaker HyperPod e consulte a documentação de treinamento elástico para obter orientações de implementação.