Amazon SageMaker HyperPod

Escale e acelere o desenvolvimento de modelos de IA generativa em milhares de aceleradores de IA

Crie planos de treinamento flexíveis no HyperPod

O que é o SageMaker HyperPod?

O Amazon SageMaker HyperPod remove o trabalho pesado indiferenciado envolvido na criação de modelos de IA generativa. Ele ajuda a escalar rapidamente as tarefas de desenvolvimento de modelos, como treinamento, ajuste fino ou inferência, em um cluster de centenas ou milhares de aceleradores de IA. O SageMaker HyperPod permite a governança centralizada em todas as suas tarefas de desenvolvimento de modelos, oferecendo total visibilidade e controle sobre como as diferentes tarefas são priorizadas e como os recursos computacionais são alocados para cada tarefa, ajudando você a maximizar a utilização do cluster pela GPU e pelo AWS Trainium e acelerar a inovação.

Desenvolvido especificamente para treinamento distribuído em grande escala

Com o SageMaker HyperPod, você pode distribuir e paralelizar com eficiência seu workload de treinamento em todos os aceleradores. O SageMaker HyperPod aplica automaticamente as melhores configurações de treinamento para modelos populares disponíveis publicamente, para ajudar você a alcançar rapidamente o desempenho ideal. Ele também monitora continuamente seu cluster em busca de falhas de infraestrutura, repara automaticamente o problema e recupera seus workloads sem intervenção humana, tudo isso ajuda a economizar até 40% do tempo de treinamento.

Benefícios do SageMaker HyperPod

O SageMaker HyperPod fornece um ambiente resiliente para o desenvolvimento de modelos ao detectar, diagnosticar e se recuperar automaticamente de falhas de infraestrutura, permitindo que você execute continuamente workloads de desenvolvimento de modelos por meses sem interrupções. O treinamento sem pontos de verificação no SageMaker HyperPod reduz a necessidade de reiniciar o trabalho com base em pontos de verificação e permite o avanço do treinamento mesmo em caso de falhas, economizando custos de computação ociosa durante a recuperação e acelerando o tempo de lançamento no mercado em semanas.

A inovação de governança de tarefas do SageMaker HyperPod oferece total visibilidade e controle sobre a alocação de recursos computacionais em tarefas de desenvolvimento de modelos, incluindo treinamento, ajuste fino, experimentação e inferência. O SageMaker HyperPod gerencia automaticamente as filas de tarefas, garantindo que as tarefas mais urgentes sejam priorizadas e concluídas dentro do prazo e do orçamento, enquanto usa de forma mais eficiente os recursos computacionais para reduzir os custos de desenvolvimento de modelos em até 40%. Além disso, o SageMaker HyperPod fornece observabilidade avançada com visibilidade unificada das tarefas de desenvolvimento de modelos de IA e dos recursos computacionais.

Com as receitas do SageMaker HyperPod, cientistas de dados e desenvolvedores de todos os níveis de habilidade se beneficiam do desempenho de última geração e podem começar a treinar e ajustar rapidamente os modelos básicos disponíveis ao público em minutos. Além disso, você pode personalizar os modelos Amazon Nova, incluindo Nova Micro, Nova Lite e Nova Pro, para seus casos de uso específicos de negócios usando as receitas para melhorar a precisão de suas aplicações de IA generativa, mantendo a melhor relação preço/desempenho do setor e baixa latência. O Amazon Nova Forge é um programa inédito que oferece às organizações a maneira mais fácil e econômica de criar seus próprios modelos de fronteira usando o Nova.

Com o SageMaker HyperPod, você pode dividir automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de cluster da AWS para escalar com eficiência as workloads de treinamento. Ele ajuda a otimizar a tarefa de treinamento para a infraestrutura de rede e a topologia de clusters da AWS. Também simplifica a verificação do modelo por meio das recibos, ao otimizar a frequência de salvamento dos pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento.

O SageMaker HyperPod ajuda a acelerar as implantações de modelos de pesos abertos do SageMaker JumpStart e modelos ajustados do Amazon Simple Storage Service (Amazon S3) e do Amazon FSx. É possível simplificar as tarefas de implantação de modelos com provisionamento automático, gerenciamento de recursos computacionais por meio da governança de tarefas, monitoramento de performance em tempo real e observabilidade aprimorada.

Apresentação do treinamento sem necessidade de pontos de verificação no Amazon SageMaker HyperPod

Recuperação automática de falhas de infraestrutura em minutos, mesmo em milhares de aceleradores de IA.

Saiba mais

Comece a usar o SageMaker HyperPod

Documentação

Para começar, confira o guia detalhado para desenvolvedores

Leia a documentação

Demonstração

Saiba como acelerar o treinamento de modelo com o SageMaker HyperPod

Assista ao vídeo

Amazon SageMaker HyperPod

O que é o SageMaker HyperPod?

Desenvolvido especificamente para treinamento distribuído em grande escala

Benefícios do SageMaker HyperPod

Apresentação do treinamento sem necessidade de pontos de verificação no Amazon SageMaker HyperPod

Comece a usar o SageMaker HyperPod

Para começar, confira o guia detalhado para desenvolvedores

Saiba como acelerar o treinamento de modelo com o SageMaker HyperPod

Aprenda

Recursos

Desenvolvedores

Ajuda

Amazon SageMaker HyperPod

O que é o SageMaker HyperPod?

Desenvolvido especificamente para treinamento distribuído em grande escala

Benefícios do SageMaker HyperPod

Elimine as interrupções com um ambiente resiliente

Maximize a utilização de recursos e reduza os custos com governança e observabilidade centralizadas

Otimize o desempenho da personalização do modelo com recibos e ferramentas

Escale e paralelize o treinamento de modelos em milhares de aceleradores de IA

Acelere a implantação de modelos de pesos abertos

Apresentação do treinamento sem necessidade de pontos de verificação no Amazon SageMaker HyperPod

Comece a usar o SageMaker HyperPod

Para começar, confira o guia detalhado para desenvolvedores

Saiba como acelerar o treinamento de modelo com o SageMaker HyperPod

Aprenda

Recursos

Desenvolvedores

Ajuda