Pular para o conteúdo principal

Chips de IA da AWS

AWS Trainium

O Trainium3, nosso primeiro chip de IA da AWS de 3 nm desenvolvido especificamente para oferecer a melhor economia de token para aplicativos de última geração de atendentes, raciocínio e geração de vídeo

Por que usar o Trainium?

O AWS Trainium é uma família de aceleradores de IA com propósito específico (Trn1, Trn2 e Trn3) e projetados para oferecer desempenho escalável e eficiência de custos para treinamento e inferência em uma ampla variedade de workloads de IA generativa

A família do AWS Trainium

Trainium1

O chip do AWS Trainium de primeira geração é responsável pelas instâncias Trn1 do Amazon Elastic Compute Cloud (Amazon EC2), que apresentam custos de treinamento até 50% menores do que as instâncias comparáveis do Amazon EC2. Muitos clientes, incluindo a Ricoh, a Karakuri, a SplashMusic e a Arcee AI, estão percebendo os benefícios de desempenho e custos das instâncias Trn1.

Trainium2

O chip do AWS Trainium2 proporciona um desempenho até 4 vezes superior quando comparado ao chip do Trainium de primeira geração. As instâncias Trn2 do Amazon EC2 e os UltraServers Trn2 baseados no Trainium2 foram desenvolvidas com propósito específico para IA generativa e oferecem um custo-benefício de 30 a 40% melhor em comparação com as instâncias EC2 P5e e P5en baseadas em GPU. As instâncias Trn2 apresentam até 16 chips Trainium2 e os UltraServers Trn2 apresentam até 64 chips Trainium2 interconectados com o NeuronLink, nossa interconexão exclusiva entre chips. É possível usar as instâncias Trn2 e o UltraServers para treinar e implantar modelos mais complexos, incluindo grandes modelos de linguagem (LLMs), modelos multimodais e transformadores de difusão, para o desenvolvimento de uma ampla variedade de aplicações de IA generativa da próxima geração.

Trainium3

Os UltraServers Trn3, equipada com nosso chip de IA de quarta geração, o AWS Trainium3, o primeiro chip de IA de 3 nm da AWS, foram desenvolvidos especificamente para oferecer a melhor economia de tokens para aplicativos de última geração de atendentes, raciocínio e geração de vídeo. Os UltraServers Trn3 apresentam desempenho até 4,4 vezes maior, largura de banda de memória 3,9 vezes maior e eficiência energética mais de 4 vezes melhor em comparação com os UltraServers Trn2, fornecendo o melhor custo-benefício para treinamento e manutenção de modelos de escala avançada, incluindo aprendizado por reforço, Mixture-of-Experts (MoE), raciocínio e arquiteturas de longo contexto.

Cada chip AWS Trainium3 fornece 2,52 petaflops (PFLOPs) de computação FP8, aumenta a capacidade de memória em 1,5 vez e a largura de banda em 1,7 vez em relação ao Trainium2 para 144 GB de memória HBM3e e 4,9 TB/s de largura de banda de memória. O Trainium3 foi projetado para workloads densas e paralelas de especialistas com tipos de dados avançados (MXFP8 e MXFP4) e melhor equilíbrio entre memória e computação para tarefas de raciocínio, multimodais e em tempo real.

No Amazon Bedrock, o Trainium3 é o acelerador mais rápido, oferecendo desempenho até 3 vezes mais rápido do que o Trainium2 e 3 vezes mais eficiência energética do que qualquer outro acelerador disponível. Em testes de serviço em grande escala (por exemplo, GPT-OSS), o Trn3 fornece tokens de saída mais de 5 vezes mais altos por megawatt do que o Trn2, com latência semelhante por usuário, o que permite uma inferência de maior throughput e mais sustentável em escala.

Criado para desenvolvedores

As novas instâncias baseadas no Trainium3 são criadas para pesquisadores de IA e desenvolvidas pelo AWS Neuron SDK, com o objetivo de possibilitar
desempenho inovador. 

Com a integração nativa com o PyTorch, os desenvolvedores podem realizar o treinamento e implantação sem alterar uma única linha de código. Para
engenheiros de desempenho de IA, permitimos um acesso mais profundo ao Trainium3, assim os desenvolvedores podem ajustar o desempenho,
personalizar os kernels e levar os modelos ainda mais longe. Como a inovação promove a abertura, temos o compromisso
de interagir com nossos desenvolvedores por meio de ferramentas e recursos de código aberto. 

Para saber mais, visite as instâncias do Amazon EC2 Trn3, explore o AWS Neuron SDK ou cadastre-se para ter acesso antecipado.

Benefícios

Os Trn3 UltraServers apresentam as mais recentes inovações da tecnologia UltraServer de expansão, com NeuronSwitch-v1 para
coletivos all-to-all mais rápidos em até 144 chips Trainium3. Em conjunto, um único Trn3 UltraServer fornece
até 20,7 TB de HBM3e, 706 TB/s de largura de banda de memória e 362 PFLOPs FP8, oferecendo até 4,4 vezes mais
desempenho e eficiência energética mais de 4 vezes melhor do que os Trn2 UltraServers. O Trn3 fornece o mais alto
desempenho com o menor custo de treinamento e inferência com os modelos mais recentes de MoE e tipo de raciocínio de mais de 1 T+, além de gerar um throughput significativamente maior para o GPT-OSS servindo em grande escala em comparação com as
instâncias baseadas no Trainium2.

Os Trn2 UltraServers continuam sendo uma opção econômica e de alto desempenho para treinamento de IA generativa e inferência de
modelos de até 1T de parâmetros. As instâncias Trn2 apresentam até 16 chips Trainium2 e os Trn2 UltraServers apresentam
até 64 chips Trainium2 conectados ao NeuronLink, uma interconexão proprietária entre chips.

As instâncias Trn1 apresentam até 16 chips Trainium e oferecem até 3 FP8 PFLOPs, 512 GB de HBM com 9,8 TB/s de
largura de banda de memória e até 1,6 Tbps de rede EFA.

Criado para pesquisa e experimentação

O AWS Neuron SDK ajuda você a extrair todo o desempenho das instâncias Trn3, Trn2 e Trn1, permitindo que você se concentre no desenvolvimento e na implantação de modelos, acelerando o tempo de lançamento no mercado. O AWS Neuron fornece integração nativa com o PyTorch Jax e bibliotecas fundamentais, como Hugging Face, vLLM, PyTorch Lightning, entre outras. Ele otimiza os modelos automaticamente para treinamento e inferência distribuídos, ao mesmo tempo em que oferece insights aprofundados para criação de perfis e depuração. O AWS Neuron se integra com serviços como o Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster e AWS Batch, bem como com serviços de entidades externas, como Ray (Anyscale), Domino Data Lab e Datadog.

Para oferecer alto desempenho e, ao mesmo tempo, cumprir metas de precisão, o AWS Trainium é compatível com uma variedade de opções de
tipos de dados de precisão mista, como BF16, FP16, FP8, MXFP8 e MXFP4. Para atender ao ritmo acelerado da inovação em IA generativa,
o Trainium2 e o Trainium3 apresentam otimizações de hardware para 4 vezes mais dispersão (16:4), microajuste de escala,arredondamento
estocástico e mecanismos coletivos dedicados.

O Neuron permite que os desenvolvedores otimizem as workloads usando a Neuron Kernel Interface (NKI) para o desenvolvimento do kernel. O NKI expõe o Trainium ISA completo, permitindo controle total sobre programação em nível de instrução, alocação de memória e programação de execução. Além de criar os próprios kernels, os desenvolvedores podem usar a Neuron Kernel Library, que são kernels de código aberto otimizados, prontos para implantação. E, por fim, o Neuron Explore oferece visibilidade total da pilha, conectando o código dos desenvolvedores aos mecanismos do hardware.

Clientes

Clientes como a Databricks, a Ricoh, a Karakuri, a SplashMusic e outros estão percebendo os benefícios de desempenho e custo das instâncias Trn1.

Clientes como a Anthropic, a Databricks, a Poolside, a Ricoh e a NinjaTech AI estão percebendo benefícios significativos de desempenho e custo das instâncias Trn1 e Trn2.

Os primeiros usuários do Trn3 estão alcançando novos níveis de eficiência e escalabilidade para a próxima geração de modelos de IA generativa em grande escala.

Missing alt text value

Conquiste a performance, o custo e a escala da IA

AWS Trainium2 para performance inovadora da IA

Histórias de clientes de chips de IA da AWS