Amazon SageMaker HyperPod agora oferece o treinamento sem necessidade de pontos de verificação

Publicado: 3 de dez de 2025

O Amazon SageMaker HyperPod agora oferece suporte ao treinamento sem necessidade de pontos de verificação, um novo recurso de treinamento de modelo de base que reduz a necessidade de uma reinicialização no nível do trabalho com base em pontos de verificação para recuperação de falhas. O treinamento sem necessidade de pontos de verificação mantém o ritmo do treinamento apesar das falhas, reduzindo o tempo de recuperação de horas para minutos. Isso representa uma mudança fundamental em relação à recuperação tradicional baseada em pontos de verificação, na qual as falhas exigem a pausa de todo o cluster de treinamento, o diagnóstico manual dos problemas e a restauração a partir de pontos de verificação salvos, um processo que pode deixar os onerosos aceleradores de IA ociosos por horas, custando à sua organização o desperdício de recursos computacionais.

O treinamento sem necessidade de pontos de verificação transforma esse paradigma preservando o estado de treinamento de modelo em todo o cluster distribuído, trocando automaticamente os nós de treinamento defeituosos em tempo real e usando a transferência de estado ponto a ponto de aceleradores saudáveis para recuperação de falhas. Ao mitigar as dependências dos pontos de verificação durante a recuperação, o treinamento sem necessidade de pontos de verificação pode ajudar sua organização a economizar custos com aceleradores de IA ociosos e a acelerar o processo. Mesmo em escalas maiores, o treinamento sem necessidade de verificação no Amazon SageMaker HyperPod permite uma taxa de aproveitamento de treinamento superior a 95% em clusters com milhares de aceleradores de IA.

O treinamento sem necessidade de pontos de verificação no SageMaker HyperPod está disponível em todas as regiões da AWS que oferecem o Amazon SageMaker HyperPod atualmente. Você pode ativar o treinamento sem necessidade de pontos de verificação sem alterações de código usando as fórmulas do HyperPod para modelos populares disponíveis publicamente, como Llama e GPT OSS. Para arquiteturas de modelos personalizadas, você pode integrar componentes de treinamento sem necessidade de pontos de verificação com modificações mínimas para fluxos de trabalho baseados em PyTorch, o que os torna acessíveis às suas equipes, independentemente de sua experiência em treinamento distribuído.

Para começar a usá-lo, acesse a página do produto Amazon SageMaker HyperPod e consulte a página de treinamento sem necessidade de pontos de verificação do GitHub para obter orientações de implementação.