Suporte do Amazon SageMaker HyperPod ao Amazon EKS para escalar o desenvolvimento de modelos de base

Publicado: 10 de set de 2024

Temos o prazer de anunciar a disponibilidade geral do suporte do Amazon EKS no SageMaker HyperPod, que permite que os clientes executem e gerenciem workloads do Kubernetes no SageMaker HyperPod, uma infraestrutura criada especificamente para o desenvolvimento de modelos de base (FMs) que reduz o tempo de treinamento de modelos em até 40%.

Muitos clientes usam o Kubernetes para orquestrar fluxos de trabalho de ML devido à sua portabilidade, escalabilidade e sofisticado ecossistema de ferramentas. Esses clientes querem continuar usando a interface familiar do Kubernetes, mas desejam contar com uma forma automatizada de gerenciar falhas de hardware. O suporte do EKS no HyperPod combina os benefícios do SageMaker HyperPod, oferecendo clusters de alta performance com os recursos de conteinerização do Amazon EKS, um serviço gerenciado do Kubernetes. Com esse lançamento, os clientes podem realizar verificações detalhadas de integridade durante a criação de clusters para reduzir as falhas durante o treinamento. Além disso, o HyperPod substitui automaticamente os nós defeituosos e retoma o treinamento a partir do seu último ponto de verificação no AWS Trainium e na GPU Nvidia com escala superior a mil aceleradores. Os clientes têm a flexibilidade de usar a nova CLI do HyperPod ou suas ferramentas preferidas para enviar, gerenciar e monitorar workloads. O ambiente de cluster persistente oferece acesso ssm e personalização do cluster. Além disso, os clusters do HyperPod orquestrados pelo EKS se integram ao CloudWatch Container Insights para oferecer observabilidade pronta para uso, descobrindo automaticamente o status de integridade dos nós do HyperPod e visualizando-os em painéis selecionados.

Essa versão está disponível para o público em geral nas regiões da AWS que oferecem o SageMaker HyperPod, exceto a região Europa (Londres).

Para saber mais, consulte a seguinte lista de recursos: página da web, blog de notícias da AWS, documentação e repositório do GitHub.