Pular para o conteúdo principal

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod

Escale e acelere o desenvolvimento de modelos de IA generativa em milhares de aceleradores de IA

O que é o SageMaker HyperPod?

O Amazon SageMaker HyperPod remove o trabalho pesado indiferenciado envolvido na criação de modelos de IA generativa. Ele ajuda a escalar rapidamente as tarefas de desenvolvimento de modelos, como treinamento, ajuste fino ou inferência, em um cluster de centenas ou milhares de aceleradores de IA. O SageMaker HyperPod permite a governança centralizada em todas as suas tarefas de desenvolvimento de modelos, oferecendo total visibilidade e controle sobre como as diferentes tarefas são priorizadas e como os recursos computacionais são alocados para cada tarefa, ajudando você a maximizar a utilização do cluster pela GPU e pelo AWS Trainium e acelerar a inovação.

Desenvolvido especificamente para treinamento distribuído em grande escala

Com o SageMaker HyperPod, você pode distribuir e paralelizar com eficiência seu workload de treinamento em todos os aceleradores. O SageMaker HyperPod aplica automaticamente as melhores configurações de treinamento para modelos populares disponíveis publicamente, para ajudar você a alcançar rapidamente o desempenho ideal. Ele também monitora continuamente seu cluster em busca de falhas de infraestrutura, repara automaticamente o problema e recupera seus workloads sem intervenção humana, tudo isso ajuda a economizar até 40% do tempo de treinamento.

Benefícios do SageMaker HyperPod

O SageMaker HyperPod fornece um ambiente resiliente para o desenvolvimento de modelos ao detectar, diagnosticar e se recuperar automaticamente de falhas de infraestrutura, permitindo que você execute continuamente workloads de desenvolvimento de modelos por meses sem interrupções. O treinamento sem pontos de verificação no SageMaker HyperPod reduz a necessidade de reiniciar o trabalho com base em pontos de verificação e permite o avanço do treinamento mesmo em caso de falhas, economizando custos de computação ociosa durante a recuperação e acelerando o tempo de lançamento no mercado em semanas.

A inovação de governança de tarefas do SageMaker HyperPod oferece total visibilidade e controle sobre a alocação de recursos computacionais em tarefas de desenvolvimento de modelos, incluindo treinamento, ajuste fino, experimentação e inferência. O SageMaker HyperPod gerencia automaticamente as filas de tarefas, garantindo que as tarefas mais urgentes sejam priorizadas e concluídas dentro do prazo e do orçamento, enquanto usa de forma mais eficiente os recursos computacionais para reduzir os custos de desenvolvimento de modelos em até 40%. Além disso, o SageMaker HyperPod fornece observabilidade avançada com visibilidade unificada das tarefas de desenvolvimento de modelos de IA e dos recursos computacionais.

Com as receitas do SageMaker HyperPod, cientistas de dados e desenvolvedores de todos os níveis de habilidade se beneficiam do desempenho de última geração e podem começar a treinar e ajustar rapidamente os modelos básicos disponíveis ao público em minutos. Além disso, você pode personalizar os modelos Amazon Nova, incluindo Nova Micro, Nova Lite e Nova Pro, para seus casos de uso específicos de negócios usando as receitas para melhorar a precisão de suas aplicações de IA generativa, mantendo a melhor relação preço/desempenho do setor e baixa latência. O Amazon Nova Forge é um programa inédito que oferece às organizações a maneira mais fácil e econômica de criar seus próprios modelos de fronteira usando o Nova.

Com o SageMaker HyperPod, você pode dividir automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para escalar com eficiência as workloads de treinamento. Ele ajuda a otimizar a tarefa de treinamento para a infraestrutura de rede e a topologia de clusters da AWS. Também simplifica a verificação do modelo por meio das recibos, ao otimizar a frequência de salvamento dos pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento.

O SageMaker HyperPod ajuda a acelerar as implantações de modelos de pesos abertos do SageMaker JumpStart e modelos ajustados do Amazon Simple Storage Service (Amazon S3) e do Amazon FSx. É possível simplificar as tarefas de implantação de modelos com provisionamento automático, gerenciamento de recursos computacionais por meio da governança de tarefas, monitoramento de performance em tempo real e observabilidade aprimorada.

Apresentação do treinamento sem necessidade de pontos de verificação no Amazon SageMaker HyperPod

Recuperação automática de falhas de infraestrutura em minutos, mesmo em milhares de aceleradores de IA.