Instâncias Trn1 do Amazon EC2
Treinamento de aprendizado profundo econômico e de alta performance na nuvem
As instâncias Trn1 do Amazon EC2, acionadas por aceleradores AWS Trainium, são criadas especificamente para treinamento de aprendizado profundo de alta performance, ao mesmo tempo em que oferecem até 50% de economia no treinamento, comparado com instâncias semelhantes baseadas em GPU. As instâncias Trn1 oferecem a melhor performance no treinamento de aprendizado profundo de modelos populares de processamento de linguagem natural (PLN) na AWS. Você pode usar instâncias Trn1 para treinar NLP, visão computacional e modelos de recomendação em um amplo conjunto de aplicações, como reconhecimento de fala, recomendação, detecção de fraude e classificação de imagem e vídeo. Você pode começar nas instâncias Trn1 usando seus fluxos de trabalho existentes em frameworks populares de machine learning (ML), como PyTorch e TensorFlow. O AWS Neuron SDK se integra perfeitamente a essas estruturas, para que você possa começar com apenas algumas linhas de alterações de código. Para saber mais sobre o suporte atual do Neuron para estruturas e bibliotecas de ML, arquiteturas de modelos e otimizações de hardware, acesse a documentação do Neuron.
Benefícios
Reduza os tempos de treinamento
As instâncias Trn1 são criadas especificamente para o aprendizado profundo de alta performance e reduzem os tempos de treinamento de meses para semanas ou até dias. Com tempos de treinamento reduzidos, você pode iterar mais rapidamente, criar modelos mais inovadores e aumentar a produtividade.
Reduza seus custos de treinamento de aprendizado profundo
As instâncias Trn1 oferecem alta performance e oferecem até 50% de economia de custo de treinamento em relação a instâncias comparáveis baseadas em GPU.
Crie com suporte nativo para bibliotecas e frameworks de ML
Você pode começar facilmente em instâncias Trn1 usando frameworks populares de ML, como PyTorch e TensorFlow. O AWS Neuron SDK se integra perfeitamente a essas frameworks, para ajudar você a começar com apenas algumas linhas de alterações de código. Para começar rapidamente com instâncias Trn1, consulte exemplos de modelos populares na documentação do Neuron.
Aumente a escala verticalmente até 6,3 exaflops de computação sob demanda
As instâncias Trn1 são as primeiras instâncias do EC2 com até 800 Gbps de largura de banda da rede Elastic Fabric Adapter (EFA). Elas são implantadas em UltraClusters do EC2 que permitem escalar até 30.000 aceleradores Trainium, que são interconectados com uma rede de escala de petabits sem bloqueio, para fornecer 6,3 exaflops de computação.
Recursos
Aceleradores AWS Trainium
As instâncias Trn1 são alimentadas por até 16 aceleradores AWS Trainium, criados especificamente para acelerar o treinamento de DL. Cada acelerador inclui dois NeuronCores de segunda geração. Para oferecer suporte a dados eficientes e paralelismo de modelo, cada instância Trn1 tem 512 GB de memória de alta largura de banda (HBM2e), oferece até 3,4 petaflops de potência computacional FP16/BF16 e apresenta o NeuronLink, um interconector sem bloqueio, de intra-instância, com velocidade ultra-alta. Para alta performance e, ao mesmo tempo, atender às metas de precisão, o Trainium tem suporte nativo para uma ampla variedade de tipos de dados, como FP32, TF32, BF16, FP16, UINT8 e FP8 configurável. Ele permite suporte de hardware para arredondamento estocástico, permitindo alta performance e maior precisão em comparação com os modos de arredondamento antigos. O Trainium também oferece suporte a formas dinâmicas de tensores e operadores personalizados escritos em C++; para oferecer uma infraestrutura flexível e preparada para o futuro para suas necessidades de treinamento.
SDK do AWS Neuron
O AWS Neuron SDK consiste em um compilador, extensões de framework, uma biblioteca de tempo de execução e ferramentas para desenvolvedores. Ele é integrado aos principais frameworks, como TensorFlow e PyTorch. O AWS Neuron também oferece suporte a bibliotecas de treinamento distribuídas, como Megatron-LM, PyTorch FSDP e outras. Para começar rapidamente com instâncias Trn1, consulte exemplos de modelos muito usados na documentação do Neuron.
Redes e armazenamento de alta performance
Cada instância Trn1 suporta até 800 Gbps de largura de banda de rede Elastic Fabric Adapter. Cada instância Trn1 também suporta até 80 Gbps de largura de banda Amazon Elastic Block Store (EBS) e até 8 TB de armazenamento local de unidade de estado sólido (SSD) NVMe para acesso rápido de workloads a grandes conjuntos de dados.
Amazon EC2 UltraClusters
As instâncias Trn1 são implantadas em UltraClusters do EC2 que permitem escalar até 30.000 aceleradores Trainium. Esses aceleradores são interconectados com uma rede sem bloqueio em escala de petabits para fornecer até 6,3 exaflops de computação conectados a soluções de armazenamento como o Amazon S3. Com o Amazon FSx para Lustre, você pode acessar o armazenamento compartilhado que fornece latências inferiores a um milissegundo e até centenas de gigabytes por segundo de throughput.
Parceiros

“Na PyTorch, aceleramos a transformação do machine learning desde a prototipagem de pesquisas até a produção pronta para os clientes. Colaboramos amplamente com a equipe da AWS para fornecer suporte nativo ao PyTorch para as novas instâncias Trn1 do Amazon EC2, desenvolvidas especificamente para o treinamento de modelos de aprendizado profundo. Desenvolvedores que criam modelos PyTorch podem começar a treinar em instâncias Trn1 com o mínimo de alterações de código. Além disso, trabalhamos com a comunidade OpenXLA para habilitar as bibliotecas distribuídas do PyTorch para facilitar a migração de modelos de instâncias baseadas em GPU para instâncias Trn1. Estamos entusiasmados com a inovação que as instâncias Trn1 trazem para a comunidade PyTorch, incluindo tipos de dados mais eficientes, formas dinâmicas, operadores personalizados, arredondamento estocástico otimizado por hardware e modo de depuração rápida. Tudo isso torna a Trn1 adequada para ampla adoção por desenvolvedores do PyTorch e esperamos futuras contribuições conjuntas ao PyTorch para otimizar ainda mais a performance do treinamento.”
Geeta Chauhan, inteligência artificial aplicada, gerente de engenharia
Clientes

“Na HeliXon, construímos soluções de IA de próxima geração para terapias baseadas em proteínas. Nosso objetivo é desenvolver ferramentas de IA que capacitem os cientistas a decifrar a função e a interação das proteínas, interrogar conjuntos de dados genômicos em grande escala para identificação de alvos e projetar terapias, como anticorpos e terapias celulares. Hoje, usamos bibliotecas de distribuição de treinamento, como o FSDP, para paralelizar o treinamento de modelos em muitos servidores baseados em GPU, mas isso ainda nos leva semanas para treinar um único modelo. Estamos entusiasmados em utilizar as instâncias Trn1 do Amazon EC2, que oferecem a maior largura de banda de rede (800 Gbps) disponível na AWS para melhorar a performance dos nossos trabalhos de treinamento distribuídos e reduzir nossos tempos de treinamento de modelos, além de reduzir nossos custos de treinamento.”
Jian Peng, CEO da Helixon

A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e justa.
“Lançamos um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduzimos nossa latência de inferência em 97% em relação a instâncias comparáveis baseadas em GPU, além de reduzir os custos. Como continuamos ajustando modelos personalizados de PNL periodicamente, também é importante reduzir os tempos e custos de treinamento de modelos. Com base em nossa experiência de migração bem-sucedida da workload de inferência em instâncias Inf1 e em nosso trabalho inicial em instâncias Trn1 do EC2 baseadas no AWS Trainium, esperamos que as instâncias Trn1 forneçam valor adicional para melhorar a performance e o custo de ML de ponta a ponta.”
Takuya Nakade, CTO da Money Forward, Inc.

A Magic é uma empresa integrada de produtos e pesquisas que desenvolve IA para tornar o mundo mais produtivo.
“O treinamento de grandes modelos baseados em transformadores autorregressivos é um componente essencial do nosso trabalho. As instâncias Trn1 com a tecnologia AWS Trainium são projetadas especificamente para essas workloads, oferecendo escalabilidade quase infinita, redes rápidas entre nós e suporte avançado a tipos de dados de 16 e 8 bits. As instâncias Trn1 nos ajudarão a treinar modelos grandes com mais rapidez e menor custo. Estamos especialmente entusiasmados com o suporte nativo ao arredondamento estocástico BF16 no Trainium, aumentando a performance, enquanto a precisão numérica é inseparável da precisão total.”
Eric Steinberger, co-fundador e CEO da Magic

A CACTUS tem um conjunto de produtos e soluções para pesquisadores e organizações que melhoram a forma como a pesquisa é financiada, publicada, comunicada e descoberta.
“Na Cactus Labs, aproveitamos o poder da IA, com pesquisas focadas em processamento de linguagem natural, recomendação de classificação, IA conversacional, modelos de linguagem grande, visão computacional, AR/VR e XAI. Em linha com nossa busca para permitir um treinamento mais rápido de modelos de machine learning, além de permitir que nossos pesquisadores realizem mais experimentos enquanto gerenciam o custo da infraestrutura, tivemos o prazer de avaliar o AWS Trainium. Os recursos prontos para uso do AWS Trainium, como otimização de XLA, treinamento paralelo de dados para vários trabalhadores e armazenamento em cache gráfico, são realmente úteis para reduzir os tempos de treinamento e nos ajudar a realizar mais experimentos de maneira mais rápida e barata.”
Nishchay Shah - CTO e chefe de produtos emergentes da Cactus Communication
Serviços da Amazon usando instâncias Trn1
1.1d9aadc21e2c942dc72b3d1c0b2d4ec9139595ad.png)
O mecanismo de pesquisa de produtos da Amazon indexa bilhões de produtos, atende a bilhões de consultas de clientes diariamente e é um dos serviços mais usados no mundo.
“Estamos treinando modelos de linguagem grande (LLM) que são multimodais (texto + imagem), multilíngues, multilocais, pré-treinados em várias tarefas e que abrangem várias entidades (produtos, consultas, marcas, avaliações etc.) para melhorar a experiência de compra do cliente. As instâncias Trn1 fornecem uma maneira mais sustentável de treinar LLMs, oferecendo a melhor performance/watt em comparação com outras soluções aceleradas de machine learning e nos oferecem alta performance com o menor custo. Planejamos explorar o novo tipo de dados FP8 configuráveis e o arredondamento estocástico acelerado por hardware para aumentar ainda mais a eficiência do nosso treinamento e a velocidade do desenvolvimento.”
Trishul Chilimbi, vice-presidente de pesquisa da Amazon
Comece a usar
Você pode treinar modelos em instâncias Trn1 facilmente usando o Amazon SageMaker. Reduza significativamente o tempo e o custo para treinar e ajustar modelos de machine learning (ML) sem a necessidade de gerenciar a infraestrutura. Com o SageMaker, você pode usar ferramentas integradas para gerenciar e monitorar experimentos de treinamento, escolher automaticamente os hiperparâmetros ideais, depurar trabalhos de treinamento e monitorar a utilização dos recursos do sistema.
Detalhes do produto
Tamanho da instância | Trainium Aceleradores |
Aceleradora Memória (GB) |
vCPUs | Instância Memória (GiB) |
Local NVMe Armazenamento (TB) |
Rede Largura de banda (Gbps) |
EFA e RDMA Suporte |
EBS Largura de banda (Gbps) |
Sob demanda Preço por hora |
1 ano Reservada Instância Efetiva Por hora* |
3 anos Reservada Instância Efetiva Por hora* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0,5 | Até 12,5 | Não | Até 20 | USD 1,34 | USD 0,79 | USD 0,4744 |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | Sim | 80 | USD 21,50 | USD 12,60 | USD 7,59 |

Comece a criar no console
Comece a criar usando os guias detalhados que ajudam a iniciar seu projeto da AWS.