Pular para o conteúdo principal

Amazon EC2

Instâncias Trn3 do AWS EC2

Com propósito específico de oferecer a melhor economia de token para aplicações agênticas, de raciocínio e de geração de vídeo de última geração.

Por que usar Trn3 UltraServers do Amazon EC2?

Os modelos de fronteira atuais estão mudando para modelos multimodais de trilhões de parâmetros que suportam contextos longos com mais de 1 milhão de tokens, o que exige a próxima geração de computação de alta performance e escalonamento. Os Trn3 UltraServers do Amazon EC2 e a pilha para desenvolvedores do AWS Neuron foram criados com propósito específico para essas demandas, oferecendo a performance, a eficiência de custo e a eficiência energética necessárias para treinar e atender à próxima geração de sistemas agênticos e de raciocínio em grande escala. 

Os Trn3 UltraServers do Amazon EC2, com a tecnologia do nosso chip de IA de quarta geração Trainium3, o primeiro chip de IA de 3 nm da AWS com propósito específico de oferecer a melhor economia de tokens para aplicações agênticas, de raciocínio e de geração de vídeo de última geração.

O Trn3 UltraServer oferece performance até 4,4 vezes maior, largura de banda de memória 3,9 vezes maior e mais de 4 vezes melhor performance/watt em comparação com nossos Trn2 UltraServers, proporcionando o melhor relação custo/benefício para treinamento e fornecimento de modelos em escala de fronteira, incluindo aprendizado por reforço, Mixture-of-Experts (MoE), raciocínio e arquiteturas de contexto longo. Os Trn3 UltraServers dão continuidade à liderança da família Trainium em termos de preço, performance e escalabilidade, ajudando-o a treinar mais rapidamente e a implantar a próxima geração de modelos de base com maior performance e de maneira mais econômica.

Os Trn3 UltraServers podem escalar até 144 chips Trainium3 (até 362 FP8 PFLOPs) e estão disponíveis em UltraClusters 3.0 do EC2 para escalar até centenas de milhares de chips. O Trn3 UltraServer de última geração apresenta o NeuronSwitch-v1, uma estrutura completa que usa o NeuronLink-v4 com 2 TB/s de largura de banda por chip.

Você pode começar facilmente com suporte nativo para PyTorch, JAX, Hugging Face, Optimum Neuron e outras bibliotecas, além de compatibilidade total com Amazon SageMaker, EKS, ECS, AWS Batch e ParallelCluster

Missing alt text value

Benefícios

Os Trn3 UltraServers, equipados com chips AWS Trainium3, oferecem performance até 4,4 vezes maior, largura de banda de memória 3,9 vezes maior e performance 4 vezes melhor por watt em comparação com nossos UltraServers Trn2. No Amazon Bedrock, o Trainium3 é o acelerador mais rápido, oferecendo uma performance até três vezes mais rápida do que o Trainium2. Esse notável aumento de performance também se traduz em um throughput significativamente maior para modelos como o GPT-OSS servindo em grande escala em comparação com instâncias baseadas no Trainium2, mantendo a baixa latência por usuário.

Cada Trn3 UltraServer escala até 144 chips Trainium3, e os novos racks oferecem mais de duas vezes a densidade de chips em comparação com o Trn2, aumentando a computação por rack e melhorando a eficiência do data center. Os Trn3 UltraServers foram desenvolvidos com base no AWS Nitro System e no Elastic Fabric Adapter (EFA) e são implantados em UltraClusters 3.0 do EC2 sem bloqueio e em escala de vários petabits, o que permite escalar até centenas de milhares de chips Trainium para treinamento e atendimento distribuídos.

Dando continuidade ao legado de liderança em performance do Trainium, as instâncias Trn3 oferecem melhor preço/performance do que os aceleradores de IA legados, permitindo que você reduza o custo por token e o custo por experimento. Maior throughput em workloads, como GPT-OSS e LLMs em escala de fronteira, custos de inferência mais baixos e tempos de treinamento reduzidos para seus modelos mais exigentes.

Os chips AWS Trainium3, nossos primeiros chips de IA de 3 nm, são otimizados para oferecer a melhor economia de token para aplicações de IA agêntica, de raciocínio e de geração de vídeo da próxima geração. Os Trn3 UltraServers oferecem eficiência energética 4 vezes melhor do que os Trn2 UltraServers, e no Amazon Bedrock.  Em serviços reais, o Trn3 alcança mais de 5 vezes mais tokens de saída por megawatt do que o Trn2 UltraServer, mantendo uma latência semelhante por usuário, ajudando-o a cumprir os objetivos de sustentabilidade sem comprometer a performance.

Os Trn3 UltraServers são alimentados pelo AWS Neuron, a pilha de desenvolvedores do AWS Trainium e do AWS Inferentia, para que você possa executar o código PyTorch e JAX existente sem alterações na programação.

O TNeuron é compatível com bibliotecas populares de ML, como vLLM, Hugging Face Optimum Neuron, PyTorch Lightning, TorchTitan, e se integra a serviços como Amazon SageMaker, Amazon SageMaker HyperPod, Amazon EKS, Amazon ECS, AWS Batch e AWS ParallelCluster.

Recursos

Cada chip AWS Trainium3 fornece 2,52 FP8 PFLOPs de computação, e os Trn3 UltraServers escalam até 144 chips Trainium3, fornecendo até 362 FP8 PFLOPs de computação FP8 total em um único UltraServer. Esse envelope de computação de alta densidade foi projetado para treinar e atender transformadores de escalas de fronteira, modelos Mixture-of-Experts e arquiteturas de contexto longo.

O AWS Trainium3 oferece capacidade de memória e largura de banda em relação à geração anterior, com cada chip oferecendo 144 GB de HBM3e e 4,9 TB/s de largura de banda de memória. O Trn3 UltraServer oferece até 20,7 TB de HBM3e e 706 TB/s de largura de banda de memória agregada, permitindo tamanhos de lote maiores, janelas de contexto estendidas e maior utilização para modelos multimodais, de vídeo e de raciocínio ultragrandes.

Os Trn3 UltraServers apresentam o NeuronSwitch-v1, uma malha completa que dobra a largura de banda de interconexão entre chips em relação aos Trn2 UltraServers, melhorando a eficiência do modelo paralelo e reduzindo a sobrecarga de comunicação para treinamento MoE e tensor paralelo. Os Trn3 UltraServers aceitam até 144 chips por UltraServer, mais de duas vezes mais do que os Trn2 UltraServers. Para treinamento distribuído em grande escala, implantamos os Trn3 UltraServers no UltraCluster 3.0 com centenas de milhares de chips Trainium3 em uma única rede sem bloqueios e em escala de petabits.

O Trainium3 é compatível com os modos de precisão FP32, BF16, MXFP8 e MXFP4, o que permite equilibrar precisão e eficiência em workloads densas e paralelas especializadas. Os mecanismos de comunicação coletiva incorporados aceleram a sincronização e reduzem a sobrecarga de treinamento para modelos grandes de transformador, difusão e mistura de especialistas, melhorando o throughput de treinamento de ponta a ponta em grande escala.

Os Trn3 UltraServers são programados usando o AWS Neuron SDK, que fornece o compilador, o runtime, as bibliotecas de treinamento e inferência e as ferramentas de desenvolvimento para o AWS Trainium e o AWS Inferentia. A Neuron Kernel Interface (NKI) oferece acesso de baixo nível ao conjunto de instruções, à memória e ao agendamento de execução do Trainium para que os engenheiros de performance possam criar kernels personalizados e aumentar a performance além das frameworks padrão. O Neuron Explorer oferece um ambiente unificado de criação de perfil e depuração, rastreando a execução do PyTorch e do código JAX até as operações de hardware e fornecendo percepções acionáveis para estratégias de fragmentação, otimizações de kernel e execuções distribuídas em grande escala.

Você encontrou o que estava procurando hoje?

Informe-nos para que possamos melhorar a qualidade do conteúdo em nossas páginas