Anúncio dos pontos de verificação hierárquicos gerenciados do Amazon SageMaker HyperPod

Publicado: 8 de set de 2025

Hoje, a Amazon Web Services (AWS) anuncia a disponibilidade geral de pontos de verificação hierárquicos gerenciados para o Amazon SageMaker HyperPod, um novo recurso projetado para reduzir o tempo de recuperação de modelos e minimizar perdas no progresso de treinamentos. A probabilidade de falhas na infraestrutura de treinamento de AI cresce com o aumento da escala, tornando essencial um ponto de verificação eficiente. Os métodos tradicionais de ponto de verificação podem ser lentos e consumir muitos recursos, principalmente nos modelos de grande porte. Os pontos de verificação hierárquicos gerenciados do SageMaker HyperPod resolvem isso usando a memória da CPU para armazenar pontos de verificação frequentes para agilizar a recuperação, enquanto persistem periodicamente os dados no Amazon S3 para durabilidade no longo prazo. Essa abordagem híbrida minimiza a perda de treinamento e reduz significativamente o tempo necessário para retomar o treinamento após uma falha.

Com pontos de verificação hierárquicos gerenciados, as organizações podem treinar de forma confiável e com alto throughput em clusters de grande escala. A solução permite que os clientes configurem políticas de frequência e retenção de pontos de verificação em níveis de armazenamento persistente e na memória. Ao armazenar frequentemente na memória, os clientes podem agilizar as recuperações e minimizar os custos de armazenamento. Com a integração do ponto de verificação distribuído (DCP) do PyTorch, os clientes podem implementar facilmente esse recurso com apenas algumas linhas de código e obter os benefícios de performance do armazenamento na memória.

Atualmente, esse atributo está disponível para clusters do SageMaker HyperPod que usam o orquestrador do EKS. Os clientes podem ativar os pontos de verificação hierárquicos gerenciados especificando um parâmetro de API ao criar ou atualizar um cluster HyperPod por meio da API CreateCluster ou UpdateCluster. Em seguida, os clientes podem usar a biblioteca sagemaker-checkpointing do Python para implementar os pontos de verificação hierárquicos gerenciados com alterações mínimas de código nos scripts de treinamento.

Os pontos de verificação hierárquicos gerenciados estão disponíveis em todas as regiões que oferecem o SageMaker HyperPod. Para saber mais, consulte a publicação de blog e a documentação.