Publicado: Oct 10, 2022

O AWS Neuron adiciona suporte a instâncias Trn1 do Amazon EC2 baseadas no AWS Trainium para oferecer treinamento de aprendizado profundo em grande escala com alta performance e economia. O SDK do Neuron inclui um compilador, bibliotecas de tempo de execução e ferramentas de definição de perfis integradas a estruturas populares de ML, como PyTorch e TensorFlow. Com esta primeira versão do Neuron 2.x, os desenvolvedores já podem executar workloads de treinamento de aprendizado profundo em instâncias Trn1 para reduzir os custos de treinamento em até 50% em relação às instâncias do EC2 baseadas em GPU e obter a maior performance de treinamento da Nuvem AWS para modelos populares de PLN. 

O Neuron adiciona suporte ao treinamento de modelos de aprendizado profundo, começando pelos modelos de linguagens, que serão seguidos por mais famílias de modelos, como modelos de visão (como descrito no roteiro do Neuron). Para os modelos de linguagem, esta versão do Neuron oferece suporte às arquiteturas de modelo Transformers Encoder/Autoencoder e Transformers Decoders/Autoregressive, como GPT. Para ajudar a acelerar fluxos de trabalho de desenvolvedores e oferecer melhores insights sobre as workloads de treinamento, agora o Neuron oferece suporte a compilações Just-In-Time integradas, execução passo a passo com o modo de depuração eager e ferramentas que fornecem insights de performance e utilização.

O Neuron libera várias otimizações de hardware para ajudar os desenvolvedores a aproveitar as inovações do Trainium e maximizar performance e economia. Ele aceita os tipos de dados FP32, TF32, FP16 e BF16, bem como a transformação (casting) de FP32 para TF32, BF16 e FP16. Além disso, ele adiciona suporte ao arredondamento estocástico acelerado por hardware, que oferece treinamento com a velocidade do BF16 e a faixa de precisão do FP32 por meio de conversões automáticas de FP32 para BF16.

Para oferecer suporte ao treinamento distribuído de modelos em grande escala em vários aceleradores em um UltraCluster de Trn1, o Neuron oferece várias operações de computação coletiva e 800 Gbps de redes EFA, a maior largura de banda da rede oferecida atualmente na Nuvem AWS. Além disso, o Neuron também é compatível com bibliotecas de treinamento distribuído, como Megatron-LM, em um repositório público do GitHub.

Os desenvolvedores podem executar workloads de treinamento de DL em instâncias Trn1 usando AMIs e contêineres de deep learning da AWS ou serviços gerenciados como Amazon Elastic Container Service (Amazon ECS) e AWS ParallelCluster. O suporte aos serviços Amazon Elastic Kubernetes Service (Amazon EKS), Amazon SageMaker e AWS Batch será disponibilizado em breve. Para ajudar os desenvolvedores a dar os primeiros passos, esta versão oferece exemplos de pré-treinamento e ajuste fino do modelo HuggingFace BERT-large e pré-treinamento do modelo Megatron-LM GPT3 (6.7B).

As instâncias Trn1 estão disponíveis como instâncias sob demanda, reservadas ou spot, ou como parte de um Savings Plan, nas seguintes regiões da AWS: Leste dos EUA (N. da Virgínia) e Oeste dos EUA (Oregon). Para começar a usar as instâncias Trn1, consulte a documentação do Neuron. Para ver uma lista completa dos recursos, melhorias e alterações desta versão, consulte as notas de release. Para obter insights sobre os próximos recursos, consulte o roteiro do Neuron