Anúncio do operador de treinamento do Amazon SageMaker HyperPod
Hoje, estamos anunciando a disponibilidade geral do operador de treinamento do Amazon SageMaker HyperPod, uma extensão do Kubernetes criada especificamente para o treinamento de modelo de base resiliente no HyperPod.
O Amazon SageMaker HyperPod capacita os clientes a acelerar a performance de modelos de IA em centenas ou milhares de GPUs com resiliência incorporada, diminuindo o tempo de treinamento de modelo em até 40%. À medida que os clusters de treinamento se expandem, a recuperação das interrupções de treinamento se torna cada vez mais disruptiva. A recuperação de falhas tradicionalmente exige uma reinicialização completa do trabalho em todos os nós quando até mesmo um único processo de treinamento falha, resultando em tempo de inatividade adicional e aumento de custos. Além disso, identificar e resolver problemas críticos de treinamento, como GPUs paralisadas, baixo throughput de treinamento e instabilidades numéricas, normalmente requer um código de monitoramento personalizado complexo, estendendo ainda mais os cronogramas de desenvolvimento e atrasando o tempo de lançamento no mercado.
Com o operador de treinamento do HyperPod, os clientes podem aprimorar ainda mais a resiliência do treinamento para workloads do Kubernetes. Em vez de reiniciar totalmente o trabalho quando ocorrem falhas, o operador de treinamento do HyperPod realiza a recuperação cirúrgica, reiniciando seletivamente somente os recursos de treinamento afetados para uma recuperação mais rápida das falhas. Ele também apresenta um recurso personalizável de monitoramento de tarefas suspensas para ajudar a superar cenários de treinamento problemáticos, incluindo lotes de treinamento paralisados, valores de perda não numéricos e degradação da performance por meio de configurações simples do YAML. Começar é simples: crie um cluster do HyperPod, instale o complemento do operador de treinamento, defina opcionalmente políticas de recuperação personalizadas para trabalhos suspensos e inicie o treinamento.
Essa versão está disponível em todas as regiões da AWS nas quais o SageMaker HyperPod é oferecido atualmente.
Consulte a documentação para saber mais.