Clientes do Amazon SageMaker HyperPod

As principais startups e organizações de IA de todos os tamanhos estão treinando e implantando modelos básicos em grande escala no SageMaker HyperPod

  • Hugging Face

    A Hugging Face tem usado o SageMaker HyperPod para criar novos modelos abertos de base importantes, como StarCoder, IDEFICS e Zephyr, que já foram baixados milhões de vezes. Os recursos específicos de resiliência e performance do SageMaker HyperPod permitiram que nossa equipe de ciência aberta se concentrasse em inovar e publicar melhorias importantes na maneira como os modelos de base são criados, em vez de gerenciar a infraestrutura. Gostamos especialmente de como o SageMaker HyperPod é capaz de detectar falhas de hardware de ML e substituir rapidamente o hardware defeituoso sem interromper o treinamento contínuo dos modelos. Como nossas equipes precisam inovar rapidamente, esse atributo automatizado de recuperação de trabalhos nos ajudou a minimizar as interrupções durante o processo de treinamento de modelos de base, ajudando a economizar centenas de horas de treinamento em apenas um ano.

    Jeff Boudier, chefe de produtos da Hugging Face
  • Perplexity AI

    Estávamos procurando a infraestrutura de ML certa para aumentar a produtividade e reduzir custos a fim de criar grandes modelos de linguagem de alta performance. Depois de executar alguns experimentos bem-sucedidos, mudamos de outros provedores de nuvem para a AWS para usar o Amazon SageMaker HyperPod. Estamos usando o HyperPod nos últimos quatro meses com o objetivo de criar e ajustar os LLMs para alimentar o mecanismo de respostas conversacionais Perplexity, que responde a perguntas junto com as referências fornecidas no formato de citações. Como o SageMaker HyperPod monitora automaticamente a integridade do cluster e corrige falhas de GPU, nossos desenvolvedores podem se concentrar na criação de modelos em vez de perderem tempo gerenciando e otimizando a infraestrutura subjacente. As bibliotecas paralelas de dados e modelos incorporadas do SageMaker HyperPod nos ajudaram a otimizar o tempo de treinamento em GPUs e a dobrar a throughput dos treinamentos. Como resultado, nossos experimentos de treinamento são duas vezes mais rápidos. Nossos desenvolvedores podem iterar com mais rapidez, acelerando o desenvolvimento de novas experiências de IA generativa para os clientes.

    Aravind Srinivas, cofundador e CEO da Perplexity AI
  • Articul8 AI

    Leia o estudo de caso

    A governança de tarefas do Amazon SageMaker HyperPod ajuda a maximizar a utilização da GPU em várias equipes e projetos. Como uma startup de IA generativa em rápido crescimento, a Articul8 AI otimiza constantemente seu ambiente de computação para alocar recursos de computação acelerados da forma mais eficiente possível. Com a priorização automatizada de tarefas e a alocação de recursos no SageMaker HyperPod, eles observaram uma melhora drástica na utilização da GPU, reduzindo assim o tempo de inatividade e acelerando o processo de desenvolvimento de modelos, otimizando tarefas que vão desde treinamento e ajuste fino até inferência. A capacidade de transferir automaticamente recursos para tarefas de alta prioridade aumentou a produtividade de sua equipe, permitindo que eles trouxessem novas inovações de IA generativa ao mercado mais rápido do que nunca.

    O Amazon SageMaker HyperPod nos ajudou muito a gerenciar e operar nossos recursos computacionais de maneira mais eficiente com o mínimo de tempo de inatividade. Fomos os primeiros a adotar o serviço HyperPod baseado em Slurm e nos beneficiamos de seus recursos de facilidade de uso e resiliência, resultando em até 35% de melhoria de produtividade e rápida expansão de nossas operações de IA generativa. Como empresa Kubernetes, agora estamos entusiasmados em receber o lançamento do suporte do Amazon EKS para o SageMaker HyperPod. Isso é um divisor de águas para nós, pois se integra perfeitamente aos nossos canais de treinamento existentes e facilita ainda mais o gerenciamento e a operação de nossos clusters Kubernetes em grande escala. Também ajuda nossos clientes finais, pois agora podemos empacotar e produzir esse recurso em nossa plataforma de IA generativa, permitindo que nossos clientes executem seus próprios treinamentos e ajustem as workloads de maneira mais simplificada.

    Arun Subramaniyan, fundador e CEO da Articul8 AI
  • Thomson Reuters

    Leia o blog

    A Thomson Reuters, uma empresa global de IA e tecnologia orientada por conteúdo, está testando a capacidade de governança de tarefas no Amazon SageMaker HyperPod para enfrentar um desafio importante relacionado à priorização de workloads. Com a governança de tarefas, agora eles podem gerenciar os workloads dos clientes, como solicitações de inferência, juntamente com seus próprios projetos contínuos de desenvolvimento de modelos, garantindo a priorização das solicitações urgentes dos clientes sem interromper a pesquisa interna, levando a uma melhor utilização dos recursos e à satisfação do cliente. “Conseguimos atender aos nossos requisitos de treinamento de grandes modelos de linguagem usando o Amazon SageMaker HyperPod.”, disse John Duprey, engenheiro ilustre da Thomson Reuters Labs, “Usando o Amazon EKS no SageMaker HyperPod, conseguimos ampliar a capacidade e executar facilmente trabalhos de treinamento, o que nos permitiu aproveitar os benefícios dos LLMs em áreas como resumo e classificação legais”.

    A Thomson Reuters está na vanguarda do desenvolvimento da IA há mais de 30 anos e estamos comprometidos em fornecer soluções significativas que ajudem nossos clientes a obter resultados mais rapidamente, com melhor acesso a informações confiáveis. Para acelerar nossa inovação em IA generativa, além de fazer parcerias com fornecedores de LLM, também estamos explorando modelos personalizados de treinamento de maneira mais eficiente com nosso conteúdo exclusivo e proprietário e nossa experiência humana. As bibliotecas de treinamento distribuídas do SageMaker HyperPod nos ajudam a melhorar a performance do treinamento de modelos em grande escala. E seu atributo de resiliência economiza tempo à medida que monitoramos e gerenciamos a infraestrutura. Treinar nossos modelos de base no SageMaker HyperPod aumentará nossa velocidade de comercialização e nos ajudará a fornecer soluções de qualidade para nossos clientes em ritmo acelerado.

    Joel Hron, chefe de IA e laboratórios da Thomson Reuters e John Duprey, engenheiro ilustre, Thomson Reuters Labs
  • Stability AI

    Como empresa líder em IA generativa de código aberto, nosso objetivo é maximizar a acessibilidade da IA moderna. Estamos construindo modelos básicos com dezenas de bilhões de parâmetros, que exigem uma infraestrutura capaz de escalar a performance otimizada dos treinamentos. Com a infraestrutura gerenciada e as bibliotecas de otimização do SageMaker HyperPod, somos capazes de reduzir o tempo e os custos de treinamento em mais de 50%. Isso torna nosso treinamento de modelos mais resiliente e eficiente para criar modelos de última geração com mais rapidez.

    Emad Mostaque, fundador e CEO da Stability AI
  • Recursal AI

    Todo o processo foi simplificado. Usando o SageMaker HyperPod, podemos aproveitar os recursos de resiliência de cluster que identificam e recuperam automaticamente os trabalhos de treinamento do último ponto de verificação salvo no caso de uma falha de hardware. Executamos workloads muito diversas, desde aplicações, inferência e treinamento, com o Kubernetes como fio condutor. Para nós, o Amazon EKS com o SageMaker HyperPod simplesmente funciona: os nós simplesmente entram em nosso cluster.

    Nathan Wilce, líder de infraestrutura/dados, Recursal
  • Hippocratic AI

    Hippocratic AI, empresa de IA que desenvolve o primeiro grande modelo de linguagem (LLM) focado em segurança para a área da saúde. Para treinar seu LLM primário e os modelos de supervisor, a Hippocratic AI exigia recursos computacionais poderosos, que eram muito procurados e difíceis de obter. Os planos de treinamento flexíveis do Amazon SageMaker HyperPod facilitaram o acesso às instâncias P5 do Amazon Elastic Compute Cloud (Amazon EC2). A Hippocratic AI também está aproveitando os serviços da AWS, como o Grafana, para rastrear métricas importantes de utilização da GPU. Com o uso de instâncias P5 do Amazon EC2, a Hippocratic AI aumentou a velocidade do treinamento de modelo em quatro vezes e escala sua solução para acomodar centenas de casos de uso. Isso a ajudou a proteger os recursos computacionais necessários e a treinar modelos rapidamente.

  • NinjaTech

     

    A NinjaTech AI, uma empresa de IA generativa que fornece um SuperAgent multifuncional para produtividade ilimitada, usou os planos de treinamento flexíveis do Amazon SageMaker HyperPod para acelerar o ajuste fino de vários modelos internos, incluindo o modelo Llama 3.1 405B, para reduzir os custos de treinamento de modelo e automatizar o processo. A empresa tem como objetivo fornecer uma experiência perfeita aos usuários que desejam acessar vários agentes de IA que potencializam sua tecnologia SuperAgent. Para conseguir isso, eles precisavam de um modelo que pudesse prever automaticamente a intenção do usuário e determinar qual agente de IA seria adequado para ele. Esse mecanismo exigiu atualizações frequentes no modelo, incorporando feedback de clientes e novos atributos de forma iterativa, envolvendo de 10 milhões a 100 milhões de tokens em cada rodada de ajuste fino do LoRA. Como startup, adquirir e operar recursos de computação de alto desempenho é um desafio devido aos altos problemas de custo e largura de banda, especificamente em clusters de vários nós que envolvem rede e armazenamento rápidos, além de computação acelerada. Além disso, o processo de treinamento é demorado, envolvendo etapas como download de modelos, treinamento distribuído, ponto de verificação, monitoramento, remediação automática, fusão e quantização. Os planos de treinamento flexíveis da HyperPod forneceram à empresa uma computação confiável e acessível antes da execução do treinamento, atendendo aos requisitos específicos de computação e cronograma, ao mesmo tempo em que garantiam o treinamento de modelo eficiente.

  • OpenBabylon

    Desenvolvedores e cientistas de dados da OpenBabylon, uma empresa de IA que personaliza grandes modelos de linguagem para idiomas sub-representados, usam os planos de treinamento flexíveis do SageMaker HyperPod há alguns meses para otimizar seu acesso aos recursos da GPU para realizar experimentos em grande escala. Usando os recursos de treinamento distribuído de vários nós do SageMaker HyperPod, eles conduziram 100 experimentos de treinamento de modelos em grande escala, obtendo resultados de última geração na tradução do inglês para o ucraniano. Essa inovação foi alcançada dentro do prazo e de forma econômica, demonstrando a capacidade do SageMaker HyperPod de entregar com sucesso projetos complexos dentro do prazo e do orçamento.

  • Salesforce

    Os pesquisadores da Salesforce estavam procurando maneiras de começar rapidamente com o ajuste fino e o treinamento de modelo básico, sem precisar se preocupar com a infraestrutura ou passar semanas otimizando sua pilha de treinamento para cada novo modelo. Com as receitas do Amazon SageMaker HyperPod, os pesquisadores da Salesforce podem realizar prototipagem rápida ao personalizar FMs. Agora, as equipes de pesquisa de IA da Salesforce podem começar em minutos com uma variedade de receitas de pré-treinamento e ajuste fino e podem operacionalizar modelos de fronteira com alto desempenho.

Parceiros do Amazon SageMaker HyperPod

 

Promova a inovação e desbloqueie um valor comercial superior com parceiros da AWS que têm um profundo conhecimento técnico e um histórico comprovado de sucesso junto aos clientes

  • Accenture

    Estamos ampliando nossa parceria com a AWS ao atuar como parceiro de lançamento para a governança de tarefas do Amazon SageMaker HyperPod. Nossa colaboração com a AWS nos permitirá orientar os clientes em direção às últimas inovações tecnológicas, ao mesmo tempo em que contribuímos para a redução dos custos das aplicações de IA generativa. Ao reunir as funcionalidades de governança centralizada no SageMaker HyperPod e nossa experiência em projetos de IA generativa, podemos ajudar as empresas a perceber o valor da IA generativa ainda mais rapidamente, melhorando a experiência do cliente e aumentando o retorno sobre o investimento.

    Jennifer Jackson, líder global do Accenture AWS Business Group e diretora executiva sênior
  • Slalom

    Estamos entusiasmados em colaborar com a AWS ao atuar como parceiro de lançamento para a governança de tarefas do Amazon SageMaker HyperPod. Ao colaborar com a AWS, podemos apoiar nossos clientes na adoção rápida dos avanços tecnológicos mais recentes e na redução dos custos das aplicações de IA generativa. Ao combinar as funcionalidades de governança centralizada do SageMaker HyperPod com o amplo conhecimento técnico da Slalom em IA e em nuvem, podemos oferecer experiências excepcionais aos clientes, além de aumentar o retorno sobre o investimento.

    Jeff Kempiners, diretor executivo do Centro de Excelência (CoE) da Amazon para a Slalom
  • Rackspace Technology

    Estamos empolgados em colaborar com a AWS ao atuar como parceiro de lançamento para a governança de tarefas do SageMaker HyperPod. Em parceria, podemos auxiliar nossos clientes a reduzir os custos das aplicações de IA generativa e, ao mesmo tempo, mantê-los atualizados com os avanços tecnológicos mais recentes. Ao combinar as funcionalidades de governança centralizada do SageMaker HyperPod com o amplo conhecimento técnico da Rackspace em IA e em nuvem, podemos transformar as experiências dos clientes e melhorar o retorno sobre investimento simultaneamente.

    Srini Koushik, presidente do departamento de IA, tecnologia e sustentabilidade, Rackspace Technology