AWS Neuron apresenta suporte para Trainium2 e NxD Inference

Publicado: 23 de dez de 2024

Hoje, a AWS anuncia o lançamento do Neuron 2.21, apresentando suporte para chips do AWS Trainium2 e instâncias Trn2 do Amazon EC2, incluindo o tipo de instância trn2.48xlarge e o Trn2 UltraServer. Esse lançamento também adiciona suporte ao PyTorch 2.5 e apresenta o NxD Inference e o Neuron Profiler 2.0 (beta). O NxD Inference é uma nova biblioteca baseada em PyTorch integrada ao vLLM, simplifica a implantação de grandes linguagens e modelos multimodais e permite a integração do modelo PyTorch com alterações mínimas de código, e o Neuron Profiler 2.0 (beta) é um novo profiler que aprimora os recursos e a usabilidade, incluindo suporte para workloads distribuídas.

O Neuron 2.21 também apresenta o suporte à inferência do modelo Llama 3.1 405B usando a inferência NxD em uma única instância trn2.48xlarge. A versão atualiza os contêineres de deep learning (DLCs) e as AMIs de deep learning (DLAMIs) e adiciona suporte para várias arquiteturas de modelos, incluindo os modelos Llama 3.2, Llama 3.3 e Mixture-of-Experts (MoE). Os novos atributos de inferência incluem quantização de peso FP8 e decodificação em flash para decodificação especulativa no Transformers NeuronX (TNx). Além disso, novos exemplos e atributos de treinamento foram adicionados, como suporte para HuggingFace Llama 3/3.1 70B em instâncias Trn2 e suporte de DPO para alinhamento de modelos pós-treinamento.

O SDK do AWS Neuron oferece suporte ao treinamento e à implantação de modelos em instâncias Trn1, Trn2 e Inf2, disponíveis nas regiões da AWS como instâncias sob demanda, instâncias reservadas, instâncias spot ou parte do Savings Plan.

Para obter uma lista completa de novos atributos e aprimoramentos no Neuron 2.21 e para começar a usar o Neuron, consulte: