Publicado: Nov 29, 2023
Hoje, a AWS anuncia a disponibilidade geral do Amazon SageMaker HyperPod, que reduz o tempo de treinamento de modelos de base (FMs) em até 40% ao fornecer uma infraestrutura específica para treinamento distribuído em grande escala.
Muitas organizações querem treinar seus próprios FMs usando instâncias baseadas em unidades de processamento gráfico (GPU) e baseadas em Trainium a baixo custo. No entanto, o volume de dados, o tamanho dos modelos e o tempo necessário para treinar FMs aumentaram exponencialmente a complexidade do treinamento de um modelo. Os clientes geralmente precisam dividir seu treinamento de FM em potencialmente centenas ou milhares de aceleradores. Em seguida, eles executam trilhões de cálculos de dados em paralelo por semanas ou meses seguidos, o que consome tempo e exige experiência especializada em machine learning. O número de aceleradores e o tempo de treinamento aumentam substancialmente em comparação com os modelos específicos de tarefas de treinamento, então a probabilidade de erros pequenos e raros, como a falha de um único acelerador, aumenta.
O SageMaker HyperPod elimina o trabalho pesado indiferenciado envolvido na criação e otimização da infraestrutura de machine learning para treinamento de FMs. O SageMaker HyperPod é pré-configurado com as bibliotecas de treinamento distribuídas do SageMaker, que permitem que os clientes dividam automaticamente as workloads de treinamento em milhares de aceleradores, para que as workloads possam ser processadas em paralelo para melhorar a performance do modelo. O SageMaker HyperPod também garante que os clientes possam continuar o treinamento do FM sem interrupções, salvando periodicamente os pontos de verificação. Quando ocorre uma falha de hardware durante o treinamento, o SageMaker HyperPod detecta automaticamente a falha, repara ou substitui a instância defeituosa e retoma o treinamento a partir do último ponto de verificação salvo, eliminando a necessidade de os clientes gerenciarem manualmente esse processo e ajudando-os a treinar por semanas ou meses em um ambiente distribuído sem interrupções.
O SageMaker HyperPod está disponível para uso nas seguintes regiões da AWS: Leste dos EUA (Ohio), Leste dos EUA (N. da Virgínia), Oeste dos EUA (Oregon), Ásia-Pacífico (Seul), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Europa (Frankfurt), Europa (Irlanda) e Europa (Estocolmo).
Para saber mais, consulte a lista de recursos a seguir: