AWS Neuron apresenta a disponibilidade geral do NxD Inference, novos atributos e ferramentas aprimoradas

Publicado: 27 de mai de 2025

Hoje, a AWS anuncia o lançamento do Neuron 2.23, com aprimoramentos em inferência, recursos de treinamento e ferramentas para desenvolvedores. Essa versão move a biblioteca NxD Inference (NxDI) para a disponibilidade geral (GA), introduz novos recursos de treinamento, incluindo Context Parallelism (Paralelismo de contexto) e ORPO, e adiciona suporte para o PyTorch 2.6 e o JAX 0.5.3.

A biblioteca NxD Inference passa da versão beta para a disponibilidade geral, agora recomendada para todos os casos de uso de inferência de vários chips. Os principais aprimoramentos incluem suporte a cache persistente para reduzir os tempos de compilação e otimizar o tempo de carregamento do modelo.

Para workloads de treinamento, a biblioteca NxD Training apresenta o suporte ao Context Parallelism (beta) para modelos Llama, permitindo comprimentos de sequência de até 32 mil. A versão adiciona suporte para alinhamento de modelos usando ORPO com conjuntos de dados no estilo DPO, suporte atualizado para bibliotecas de terceiros, especificamente: PyTorch Lightning 2.5, Transformers 4.48 e NeMo 2.1.

A Neuron Kernel Interface (NKI) apresenta novas operações de números inteiros de 32 bits, atributos ISA aprimorados para Trainium2 e novas APIs de ajuste de performance. O Neuron Profiler agora oferece visualização de resultados de perfil cinco vezes mais rápida, rastreamento de erros baseado em cronograma e visualização aprimorada de multiprocessos com o Perfetto.

O SDK do AWS Neuron oferece suporte ao treinamento e à implantação de modelos em instâncias Trn1, Trn2 e Inf2, disponíveis nas regiões da AWS como instâncias sob demanda, instâncias reservadas, instâncias spot ou parte do Savings Plan.

Para obter uma lista completa de novos atributos e aprimoramentos no Neuron 2.23 e para começar a usar o Neuron, consulte: