Amazon SageMaker HyperPod

Reduza em até 40% o tempo necessário para treinar modelos de base e escale com eficiência em mais de mil aceleradores de IA

O que é o SageMaker HyperPod?

O Amazon SageMaker HyperPod remove o trabalho árduo e não especializado relacionado ao desenvolvimento e à otimização da infraestrutura de machine learning (ML). Ele é configurado previamente com as bibliotecas de treinamento distribuído do SageMaker, que dividem automaticamente as workloads de treinamento entre mais de mil aceleradores de IA, permitindo que as workloads sejam processadas em paralelo para obtenção de uma performance aprimorada do modelo. O SageMaker HyperPod garante que seu treinamento de FM não seja interrompido ao salvar pontos de verificação periodicamente. Ele detecta automaticamente falhas de hardware quando ocorrem, repara ou substitui a instância com problema, e retoma o treinamento a partir do último ponto de verificação salvo, removendo a necessidade de você gerenciar manualmente esse processo. O ambiente resiliente permite o treinamento contínuo de modelos por semanas ou meses em um ambiente distribuído, sem interrupções, economizando até 40% do tempo de treinamento. Além disso, o SageMaker HyperPod é altamente personalizável, permitindo a execução e a escalabilidade eficientes das workloads de FM, além de facilitar o compartilhamento da capacidade de computação entre diferentes workloads, desde o treinamento em grande escala até a inferência.

Benefícios do SageMaker HyperPod

O Amazon SageMaker HyperPod é pré-configurado com bibliotecas de treinamento distribuídas do Amazon SageMaker, permitindo que você divida automaticamente os modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudar a escalar as workloads de treinamento com eficiência.
O SageMaker HyperPod oferece suporte a sistemas populares de gerenciamento de clusters e agendamento de tarefas, como o Slurm e o Amazon Elastic Kubernetes Service (EKS). Ele oferece uma experiência de desenvolvedor superior, capacidade de gerenciar aplicações em contêineres, escalabilidade dinâmica de clusters e integração nativa na nuvem à medida que você escala suas workloads de treinamento e inferência de FM. Além disso, você pode compartilhar recursos sem problemas entre treinamento e inferência para otimizar ainda mais a utilização dos recursos.
O SageMaker HyperPod proporciona um ambiente de treinamento mais resiliente ao detectar, diagnosticar e se recuperar automaticamente de falhas, permitindo que você treine continuamente os FMs por meses sem interrupções.