Recursos do Amazon SageMaker HyperPod

Escale e acelere o desenvolvimento de modelos de IA generativa em milhares de aceleradores de IA

Governança de tarefas

O Amazon SageMaker HyperPod fornece total visibilidade e controle sobre a alocação de recursos computacionais em tarefas de desenvolvimento de modelos de IA generativa, como treinamento e inferência. O SageMaker HyperPod gerencia automaticamente as filas de tarefas, garantindo que as tarefas mais críticas sejam priorizadas e, ao mesmo tempo, usa recursos computacionais de forma mais eficiente para reduzir os custos de desenvolvimento de modelos. Em algumas etapas curtas, os administradores podem definir prioridades para diferentes tarefas e definir limites para quantos recursos computacionais cada equipe ou projeto pode usar. Em seguida, cientistas de dados e desenvolvedores criam tarefas (por exemplo, uma execução de treinamento, o ajuste fino de um modelo específico ou a realização de previsões em um modelo treinado) que o SageMaker HyperPod executa automaticamente, respeitando os limites e prioridades dos recursos computacionais definidos pelo administrador. Quando uma tarefa de alta prioridade precisa ser concluída imediatamente, mas todos os recursos computacionais estão em uso, o SageMaker HyperPod libera automaticamente os recursos computacionais das tarefas de menor prioridade. Além disso, o SageMaker HyperPod usa automaticamente recursos computacionais ociosos para acelerar as tarefas em espera. O SageMaker HyperPod fornece um painel no qual os administradores podem monitorar e auditar tarefas que estão sendo executadas ou aguardando recursos computacionais.

Saiba mais

Planos de treinamento flexíveis

Para cumprir seus cronogramas e orçamentos de treinamento, o SageMaker HyperPod ajuda você a criar os planos de treinamento mais econômicos que usam recursos computacionais de vários blocos de capacidade computacional. Depois de aprovar os planos de treinamento, o SageMaker HyperPod provisiona automaticamente a infraestrutura e executa os trabalhos de treinamento nesses recursos de computação sem exigir nenhuma intervenção manual. Você economiza semanas de esforço gerenciando o processo de treinamento para alinhar as tarefas à disponibilidade computacional.

Saiba mais

 

Receitas otimizadas

As receitas do SageMaker HyperPod ajudam cientistas de dados e desenvolvedores de todos os conjuntos de habilidades a se beneficiarem do desempenho de ponta, ao mesmo tempo em que começam a treinar e ajustar rapidamente os modelos de IA generativa disponíveis ao público, incluindo o Llama 3.1 405B, o Mixtral 8x22B e o Mistral 7B. Cada receita inclui uma pilha de treinamento que foi testada pela AWS, eliminando semanas de trabalho tedioso testando diferentes configurações de modelos. Você pode alternar entre instâncias baseadas em GPU e AWS Trainium com uma alteração de receita de uma linha, habilitar o checkpoint automatizado de modelos para melhorar a resiliência do treinamento e executar workloads em produção no SageMaker HyperPod.

 

Treinamento distribuído de alto desempenho

O SageMaker HyperPod acelera os treinamentos distribuídos ao dividir automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS. Ele ajuda a otimizar seu trabalho de treinamento para a infraestrutura de rede e a topologia de cluster da AWS e a simplificar a verificação de modelos otimizando a frequência de salvamento de pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento.

Ferramentas avançadas de experimentação e observabilidade

É possível usar as ferramentas de IA integradas no SageMaker HyperPod para aprimorar a performance dos modelos. Por exemplo, o TensorBoard gerenciado no SageMaker ajuda você a economizar tempo de desenvolvimento ao visualizar a arquitetura do modelo para identificar e corrigir problemas de convergência. A integração com o Amazon CloudWatch Container Insights disponibiliza informações mais detalhadas sobre a performance, a integridade e a utilização dos clusters. O MLflow gerenciado no SageMaker ajuda você a gerenciar eficientemente experimentos em grande escala.

Programação e orquestração de workloads

A interface do usuário do SageMaker HyperPod é altamente personalizável ao usar o Slurm ou o Amazon Elastic Kubernetes Service (Amazon EKS). Você pode selecionar e instalar qualquer estrutura ou ferramenta necessária. Todos os clusters são provisionados com o tipo e o número de instâncias que você escolher, e são retidos para uso em todas as workloads. Com o suporte do Amazon EKS no SageMaker HyperPod, é possível gerenciar e operar clusters mantendo uma experiência de administração consistente baseada no Kubernetes. Realize a execução e a escalabilidade das workloads de forma eficiente, desde o treinamento até o ajuste e a inferência. Além disso, é possível compartilhar a capacidade de computação e alternar entre o Slurm e o Amazon EKS para a execução de diferentes tipos de workloads.

Verificação e reparo automáticos da integridade do cluster

Se alguma instância apresentar defeito durante um workload de desenvolvimento de modelo, o SageMaker HyperPod detecta e soluciona automaticamente os problemas de infraestrutura. Para detectar hardware defeituoso, o SageMaker HyperPod executa regularmente uma série de verificações de integridade do acelerador e da rede.