Instâncias Trn1 do Amazon EC2

Treinamento de aprendizado profundo econômico e de alta performance na nuvem

As instâncias Trn1 do Amazon EC2, acionadas por aceleradores AWS Trainium, são criadas especificamente para treinamento de aprendizado profundo de alta performance, ao mesmo tempo em que oferecem até 50% de economia no treinamento, comparado com instâncias semelhantes baseadas em GPU. As instâncias Trn1 oferecem a melhor performance no treinamento de aprendizado profundo de modelos populares de processamento de linguagem natural (PLN) na AWS. Você pode usar instâncias Trn1 para treinar NLP, visão computacional e modelos de recomendação em um amplo conjunto de aplicações, como reconhecimento de fala, recomendação, detecção de fraude e classificação de imagem e vídeo. Você pode começar nas instâncias Trn1 usando seus fluxos de trabalho existentes em frameworks populares de machine learning (ML), como PyTorch e TensorFlow. O AWS Neuron SDK se integra perfeitamente a essas estruturas, para que você possa começar com apenas algumas linhas de alterações de código. Para saber mais sobre o suporte atual do Neuron para estruturas e bibliotecas de ML, arquiteturas de modelos e otimizações de hardware, acesse a documentação do Neuron.

Novas instâncias Trn1 do Amazon EC2 | Amazon Web Services (1:34)

Benefícios

Reduza os tempos de treinamento


As instâncias Trn1 são criadas especificamente para o aprendizado profundo de alta performance e reduzem os tempos de treinamento de meses para semanas ou até dias. Com tempos de treinamento reduzidos, você pode iterar mais rapidamente, criar modelos mais inovadores e aumentar a produtividade.

Reduza seus custos de treinamento de aprendizado profundo

As instâncias Trn1 oferecem alta performance e oferecem até 50% de economia de custo de treinamento em relação a instâncias comparáveis baseadas em GPU.

Crie com suporte nativo para bibliotecas e frameworks de ML

Você pode começar facilmente em instâncias Trn1 usando frameworks populares de ML, como PyTorch e TensorFlow. O AWS Neuron SDK se integra perfeitamente a essas frameworks, para ajudar você a começar com apenas algumas linhas de alterações de código. Para começar rapidamente com instâncias Trn1, consulte exemplos de modelos populares na documentação do Neuron.

Aumente a escala verticalmente até 6,3 exaflops de computação sob demanda

As instâncias Trn1 são as primeiras instâncias do EC2 com até 800 Gbps de largura de banda da rede Elastic Fabric Adapter (EFA). Elas são implantadas em UltraClusters do EC2 que permitem escalar até 30.000 aceleradores Trainium, que são interconectados com uma rede de escala de petabits sem bloqueio, para fornecer 6,3 exaflops de computação.

Recursos

Aceleradores AWS Trainium

As instâncias Trn1 são alimentadas por até 16 aceleradores AWS Trainium, criados especificamente para acelerar o treinamento de DL. Cada acelerador inclui dois NeuronCores de segunda geração. Para oferecer suporte a dados eficientes e paralelismo de modelo, cada instância Trn1 tem 512 GB de memória de alta largura de banda (HBM2e), oferece até 3,4 petaflops de potência computacional FP16/BF16 e apresenta o NeuronLink, um interconector sem bloqueio, de intra-instância, com velocidade ultra-alta. Para alta performance e, ao mesmo tempo, atender às metas de precisão, o Trainium tem suporte nativo para uma ampla variedade de tipos de dados, como FP32, TF32, BF16, FP16, UINT8 e FP8 configurável. Ele permite suporte de hardware para arredondamento estocástico, permitindo alta performance e maior precisão em comparação com os modos de arredondamento antigos. O Trainium também oferece suporte a formas dinâmicas de tensores e operadores personalizados escritos em C++; para oferecer uma infraestrutura flexível e preparada para o futuro para suas necessidades de treinamento.

SDK do AWS Neuron

O AWS Neuron SDK consiste em um compilador, extensões de framework, uma biblioteca de tempo de execução e ferramentas para desenvolvedores. Ele é integrado aos principais frameworks, como TensorFlow e PyTorch. O AWS Neuron também oferece suporte a bibliotecas de treinamento distribuídas, como Megatron-LM, PyTorch FSDP e outras. Para começar rapidamente com instâncias Trn1, consulte exemplos de modelos muito usados na documentação do Neuron.

Redes e armazenamento de alta performance

Cada instância Trn1 suporta até 800 Gbps de largura de banda de rede Elastic Fabric Adapter. Cada instância Trn1 também suporta até 80 Gbps de largura de banda Amazon Elastic Block Store (EBS) e até 8 TB de armazenamento local de unidade de estado sólido (SSD) NVMe para acesso rápido de workloads a grandes conjuntos de dados.

Amazon EC2 UltraClusters

As instâncias Trn1 são implantadas em UltraClusters do EC2 que permitem escalar até 30.000 aceleradores Trainium. Esses aceleradores são interconectados com uma rede sem bloqueio em escala de petabits para fornecer até 6,3 exaflops de computação conectados a soluções de armazenamento como o Amazon S3. Com o Amazon FSx para Lustre, você pode acessar o armazenamento compartilhado que fornece latências inferiores a um milissegundo e até centenas de gigabytes por segundo de throughput.

Parceiros

PyTorch
“Na PyTorch, aceleramos a transformação do machine learning desde a prototipagem de pesquisas até a produção pronta para os clientes. Colaboramos amplamente com a equipe da AWS para fornecer suporte nativo ao PyTorch para as novas instâncias Trn1 do Amazon EC2, desenvolvidas especificamente para o treinamento de modelos de aprendizado profundo. Desenvolvedores que criam modelos PyTorch podem começar a treinar em instâncias Trn1 com o mínimo de alterações de código. Além disso, trabalhamos com a comunidade OpenXLA para habilitar as bibliotecas distribuídas do PyTorch para facilitar a migração de modelos de instâncias baseadas em GPU para instâncias Trn1. Estamos entusiasmados com a inovação que as instâncias Trn1 trazem para a comunidade PyTorch, incluindo tipos de dados mais eficientes, formas dinâmicas, operadores personalizados, arredondamento estocástico otimizado por hardware e modo de depuração rápida. Tudo isso torna a Trn1 adequada para ampla adoção por desenvolvedores do PyTorch e esperamos futuras contribuições conjuntas ao PyTorch para otimizar ainda mais a performance do treinamento.”

Geeta Chauhan, inteligência artificial aplicada, gerente de engenharia

Clientes

Helixon
“Na HeliXon, construímos soluções de IA de próxima geração para terapias baseadas em proteínas. Nosso objetivo é desenvolver ferramentas de IA que capacitem os cientistas a decifrar a função e a interação das proteínas, interrogar conjuntos de dados genômicos em grande escala para identificação de alvos e projetar terapias, como anticorpos e terapias celulares. Hoje, usamos bibliotecas de distribuição de treinamento, como o FSDP, para paralelizar o treinamento de modelos em muitos servidores baseados em GPU, mas isso ainda nos leva semanas para treinar um único modelo. Estamos entusiasmados em utilizar as instâncias Trn1 do Amazon EC2, que oferecem a maior largura de banda de rede (800 Gbps) disponível na AWS para melhorar a performance dos nossos trabalhos de treinamento distribuídos e reduzir nossos tempos de treinamento de modelos, além de reduzir nossos custos de treinamento.”

Jian Peng, CEO da Helixon

Money Forward

A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e justa.

“Lançamos um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduzimos nossa latência de inferência em 97% em relação a instâncias comparáveis baseadas em GPU, além de reduzir os custos. Como continuamos ajustando modelos personalizados de PNL periodicamente, também é importante reduzir os tempos e custos de treinamento de modelos. Com base em nossa experiência de migração bem-sucedida da workload de inferência em instâncias Inf1 e em nosso trabalho inicial em instâncias Trn1 do EC2 baseadas no AWS Trainium, esperamos que as instâncias Trn1 forneçam valor adicional para melhorar a performance e o custo de ML de ponta a ponta.”

Takuya Nakade, CTO da Money Forward, Inc.

Magic

A Magic é uma empresa integrada de produtos e pesquisas que desenvolve IA para tornar o mundo mais produtivo.

“O treinamento de grandes modelos baseados em transformadores autorregressivos é um componente essencial do nosso trabalho. As instâncias Trn1 com a tecnologia AWS Trainium são projetadas especificamente para essas workloads, oferecendo escalabilidade quase infinita, redes rápidas entre nós e suporte avançado a tipos de dados de 16 e 8 bits. As instâncias Trn1 nos ajudarão a treinar modelos grandes com mais rapidez e menor custo. Estamos especialmente entusiasmados com o suporte nativo ao arredondamento estocástico BF16 no Trainium, aumentando a performance, enquanto a precisão numérica é inseparável da precisão total.”

Eric Steinberger, co-fundador e CEO da Magic

Cactus

A CACTUS tem um conjunto de produtos e soluções para pesquisadores e organizações que melhoram a forma como a pesquisa é financiada, publicada, comunicada e descoberta.

“Na Cactus Labs, aproveitamos o poder da IA, com pesquisas focadas em processamento de linguagem natural, recomendação de classificação, IA conversacional, modelos de linguagem grande, visão computacional, AR/VR e XAI. Em linha com nossa busca para permitir um treinamento mais rápido de modelos de machine learning, além de permitir que nossos pesquisadores realizem mais experimentos enquanto gerenciam o custo da infraestrutura, tivemos o prazer de avaliar o AWS Trainium. Os recursos prontos para uso do AWS Trainium, como otimização de XLA, treinamento paralelo de dados para vários trabalhadores e armazenamento em cache gráfico, são realmente úteis para reduzir os tempos de treinamento e nos ajudar a realizar mais experimentos de maneira mais rápida e barata.”

Nishchay Shah - CTO e chefe de produtos emergentes da Cactus Communication

Serviços da Amazon usando instâncias Trn1

Amazon

O mecanismo de pesquisa de produtos da Amazon indexa bilhões de produtos, atende a bilhões de consultas de clientes diariamente e é um dos serviços mais usados no mundo.

“Estamos treinando modelos de linguagem grande (LLM) que são multimodais (texto + imagem), multilíngues, multilocais, pré-treinados em várias tarefas e que abrangem várias entidades (produtos, consultas, marcas, avaliações etc.) para melhorar a experiência de compra do cliente. As instâncias Trn1 fornecem uma maneira mais sustentável de treinar LLMs, oferecendo a melhor performance/watt em comparação com outras soluções aceleradas de machine learning e nos oferecem alta performance com o menor custo. Planejamos explorar o novo tipo de dados FP8 configuráveis e o arredondamento estocástico acelerado por hardware para aumentar ainda mais a eficiência do nosso treinamento e a velocidade do desenvolvimento.”

Trishul Chilimbi, vice-presidente de pesquisa da Amazon

Comece a usar

Usar o Amazon SageMaker

Você pode treinar modelos em instâncias Trn1 facilmente usando o Amazon SageMaker. Reduza significativamente o tempo e o custo para treinar e ajustar modelos de machine learning (ML) sem a necessidade de gerenciar a infraestrutura. Com o SageMaker, você pode usar ferramentas integradas para gerenciar e monitorar experimentos de treinamento, escolher automaticamente os hiperparâmetros ideais, depurar trabalhos de treinamento e monitorar a utilização dos recursos do sistema.

Usando a AMI do AWS Deep Learning
As AMIs de Deep Learning da AWS (DLAMI) disponibilizam para profissionais e pesquisadores de aprendizado profundo a infraestrutura e as ferramentas necessárias para acelerar o aprendizado profundo na nuvem em qualquer escala. Os drivers AWS Neuron vêm pré-configurados nas DLAMI para treinar seus modelos de aprendizado profundo de forma otimizada em instâncias Trn1.
Usar AWS Deep Learning Containers
Agora, você pode implantar instâncias Trn1 no Amazon Elastic Kubernetes Service (EKS), um serviço Kubernetes totalmente gerenciado, e no Amazon Elastic Container Service (ECS), um serviço de orquestração de contêineres totalmente gerenciado. O Neuron também está disponível pré-instalado nos contêineres de aprendizado profundo da AWS. Para saber mais sobre como executar contêineres em instâncias Trn1, consulte os Tutoriais de contêineres do Neuron.

Detalhes do produto

Tamanho da instância Trainium
Aceleradores
Aceleradora
Memória
(GB)
vCPUs Instância
Memória
(GiB)
Local
NVMe
Armazenamento
(TB)
Rede
Largura de banda
(Gbps)
EFA e
RDMA
Suporte
EBS
Largura de banda
(Gbps)
Sob demanda
Preço por hora
1 ano
Reservada
Instância
Efetiva
Por hora*
3 anos
Reservada
Instância
Efetiva
Por hora*
trn1.2xlarge 1 32 8 32 0,5 Até 12,5 Não Até 20 USD 1,34 USD 0,79 USD 0,4744
trn1.32xlarge 16 512 128 512 8 800 Sim 80 USD 21,50 USD 12,60 USD 7,59
Cadastre-se para obter uma conta da AWS

Cadastre-se para obter uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS.

Aprenda com tutoriais simples

Aprenda com tutoriais de 10 minutos

Explore e aprenda com tutoriais simples.

Comece a criar com o EC2 no console

Comece a criar no console

Comece a criar usando os guias detalhados que ajudam a iniciar seu projeto da AWS.