O que é treinamento de modelos do SageMaker?
O Treinamento de modelos do Amazon SageMaker reduz o tempo e o custo para treinar e ajustar modelos de machine learning (ML) em grande escala sem a necessidade de gerenciar a infraestrutura. Você pode aproveitar a infraestrutura de computação de ML de maior performance atualmente disponível, e o Amazon SageMaker AI pode aumentar ou reduzir automaticamente a escala da infraestrutura, de uma a milhares de GPUs. Para treinar modelos de aprendizado profundo com mais rapidez, a IA do SageMaker ajuda você a selecionar e refinar conjuntos de dados em tempo real. As bibliotecas de treinamento distribuídas do SageMaker podem dividir automaticamente grandes modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS, ou você pode usar bibliotecas de terceiros, como DeepSpeed, Horovod ou Megatron. Treine modelos de base (FMs) por semanas e meses sem interrupções, monitorando e reparando automaticamente os clusters de treinamento.
Benefícios do treinamento econômico
Treine modelos em grande escala
Trabalhos de treinamento totalmente gerenciados
Os trabalhos de treinamento do SageMaker fornecem uma experiência de usuário totalmente gerenciada para o treinamento distribuído de grandes FMs, removendo o esforço pesado e não diferenciado associado ao gerenciamento da infraestrutura. Os trabalhos de treinamento do SageMaker configuram automaticamente um cluster de treinamento distribuído resiliente, monitoram a infraestrutura e se recuperam de forma automática de falhas para garantir uma experiência de treinamento sem complicações. Após a conclusão do treinamento, o SageMaker desativa o cluster e você recebe cobranças pelo tempo efetivo de treinamento. Além disso, com os trabalhos de treinamento do SageMaker, você tem a flexibilidade de escolher o tipo de instância mais adequado para cada workload (por exemplo, treinar previamente um grande modelo de linguagem (LLM) em um cluster P5 ou ajustar um LLM de código aberto em instâncias p4d) para otimizar ainda mais seu orçamento de treinamento. Adicionalmente, os trabalhos de treinamento do SagerMaker oferecem uma experiência de usuário consistente para as equipes de ML, independentemente dos níveis de conhecimento técnico e dos tipos de workload.
SageMaker HyperPod
O Amazon SageMaker HyperPod é uma infraestrutura com o propósito específico de gerenciar com eficiência os clusters de computação para escalar o desenvolvimento de modelos de base (FM). Ele possibilita o uso de técnicas avançadas de treinamento de modelos, o controle da infraestrutura, a otimização da performance e a obtenção de uma observabilidade aprimorada dos modelos. O SageMaker HyperPod é configurado previamente com bibliotecas de treinamento distribuído do SageMaker, permitindo que você divida automaticamente modelos e conjuntos de dados de treinamento entre instâncias de clusters da AWS, ajudando a utilizar de forma eficiente a infraestrutura de computação e de rede do cluster. Ele possibilita um ambiente mais resiliente ao detectar, diagnosticar e se recuperar automaticamente de falhas de hardware, permitindo que você treine continuamente os FMs por meses, sem interrupções, reduzindo o tempo de treinamento em até 40%.
Treinamento distribuído de alta performance
O SageMaker AI permite que divida automaticamente os modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para ajudar a escalar com eficiência as workloads de treinamento. Ele ajuda a otimizar o trabalho de treinamento para a infraestrutura de rede e a topologia de clusters da AWS. Também simplifica a verificação do modelo por meio das receitas, ao otimizar a frequência de salvamento dos pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento. Com as receitas, cientistas de dados e desenvolvedores de todos os conjuntos de habilidades se beneficiam do desempenho de última geração e, ao mesmo tempo, começam a treinar e ajustar rapidamente modelos de IA generativa, incluindo o Llama 3.1 405B, o Mixtral 8x22B e o Mistral 7B. As receitas incluem uma pilha de treinamento que foi testada pela AWS, o que elimina semanas de trabalho tedioso ao testar diferentes configurações de modelos. Você pode alternar entre instâncias baseadas em GPU e baseadas no AWS Trainium com uma alteração de receita de uma linha e habilitar o ponto de verificação automatizado de modelos para melhorar a resiliência do treinamento. Além disso, execute workloads em produção no atributo de treinamento do SageMaker de sua escolha.
Ferramentas integradas para maior precisão e menor custo
Ajuste automático de modelos
A IA do SageMaker pode ajustar automaticamente o modelo ajustando milhares de combinações de parâmetros de algoritmos para chegar às previsões mais precisas, economizando semanas de esforço. Ele ajuda você a encontrar a melhor versão de um modelo executando vários trabalhos de treinamento em seu conjunto de dados.

Treinamento gerenciado de spots
A IA do SageMaker ajuda a reduzir os custos de treinamento em até 90 porcento executando automaticamente as tarefas de treinamento quando a capacidade computacional se torna disponível. Esses trabalhos de treinamento também são resistentes às interrupções causadas por mudanças na capacidade.
Depuração
O Amazon SageMaker Debugger captura métricas e perfis de tarefas de treinamento em tempo real, para que você possa corrigir rapidamente os problemas de performance antes de implantar o modelo na produção. Você também pode se conectar remotamente ao ambiente de treinamento de modelos no SageMaker para depuração com acesso ao contêiner de treinamento subjacente.

Profiler
