Publicado: Oct 10, 2022
A AWS anuncia a disponibilidade geral das instâncias Trn1 do Amazon Elastic Compute Cloud (Amazon EC2). As instâncias Trn1 do Amazon EC2 são baseadas em chips AWS Trainium, criados especificamente para aplicações de treinamento de ML de alta performance na nuvem. As instâncias Trn1 oferecem a melhor performance de treinamento de aprendizado profundo (DL) de modelos populares de processamento de linguagem natural (PLN) na AWS, oferecendo uma economia de 50% em relação às instâncias do EC2 comparáveis baseadas em GPU. Você pode começar a usar instâncias Trn1 com estruturas populares de ML, como PyTorch e TensorFlow, para ajudar a reduzir custos e tempo de treinamento, acelerar a iteração para criar modelos mais inovadores e aumentar a produtividade. As instâncias Trn1 do EC2 podem ser usadas para treinar modelos de processamento de linguagem natural (PLN), visão computadorizada e recomendadores em uma ampla variedade de aplicações, como reconhecimento de fala, recomendações, detecção de fraudes, classificação de imagens e vídeos, e previsões.
As instâncias Trn1 oferecem até 16 chips AWS Trainium, um chip de ML de segunda geração criado pela AWS com base no AWS Inferentia. As instâncias Trn1 são as primeiras instâncias do EC2 com até 800 Gbps de largura de banda da rede de Elastic Fabric Adapter (EFA). Para oferecer um paralelismo eficiente de dados e modelos, cada instância Trn1 tem 512 GB de memória com alta largura de banda, disponibiliza até 3,4 petaflops de capacidade computacional FP16/BF16 e oferece o NeuronLink, uma interconexão não bloqueadora de alta largura de banda interna da instância. Para oferecer suporte a modelos de aprendizado profundo em grande escala, as instâncias Trn1 são implantadas em EC2 UltraClusters. Você poderá usar os UltraClusters para escalar até 30.000 aceleradores Trainium, interconectados com uma rede não bloqueadora na escala de petabits para ter acesso sob demanda a um supercomputador com 6,3 exaflops de computação. As instâncias Trn1 oferecem suporte nativo a uma grande variedade de tipos de dados, incluindo o novo FP8 configurável, formas de entrada dinâmica, fluxo de controle, operadores C++ personalizados e arredondamento estocástico. O AWS Neuron SDK libera esses recursos avançados e adiciona suporte à compilação Just-in-Time (JIT) e ao modo eager de depuração. O AWS Neuron está integrado às principais estruturas e bibliotecas de ML, como PyTorch, TensorFlow, Megatron-LM, Hugging Face e PyTorch FSDP, o que permite que você continue a usar as estruturas existentes e executar suas aplicações com mínimas alterações de código.
Os desenvolvedores podem executar workloads de treinamento de DL em instâncias Trn1 usando AMIs e contêineres de deep learning da AWS ou serviços gerenciados como Amazon Elastic Container Service (Amazon ECS) e AWS ParallelCluster. O suporte aos serviços Amazon Elastic Kubernetes Service (Amazon EKS), Amazon SageMaker e AWS Batch será disponibilizado em breve.
As instâncias Trn1 do Amazon EC2 estão disponíveis em dois tamanhos: trn1.2xlarge, para experimentos com um único acelerador e treinamento de pequenos modelos com economia e trn1.32xlarge para treinamento de modelos em grande escala. Elas estão disponíveis como instâncias sob demanda, reservadas ou spot, ou como parte de um Savings Plan, nas seguintes regiões da AWS: Leste dos EUA (N. da Virgínia) e Oeste dos EUA (Oregon).
Para saber mais sobre as instâncias Trn1, consulte Instâncias Trn1 do Amazon EC2.