AWS Neuron aggiunge il supporto per Trainium2 e NxD Inference

Inserito il: 23 dic 2024

AWS presenta oggi il lancio di Neuron 2.21, con supporto per i chip AWS Trainium2 e le istanze Amazon EC2 Trn2, comprese le istanze trn2.48xlarge e Trn2 UltraServer. Questa versione aggiunge anche il supporto per PyTorch 2.5 e introduce NxD Inference e Neuron Profiler 2.0 (beta). NxD Inference, una nuova libreria PyTorch integrata con vLLM, ottimizza l'implementazione di modelli di linguaggio di grandi dimensioni e multimodali, permettendo di integrare modelli PyTorch con modifiche minime al codice. Neuron Profiler 2.0 (beta) è un profiler avanzato che estende le capacità e semplifica l'utilizzo, offrendo supporto per carichi di lavoro distribuiti.

Neuron 2.21 aggiunge il supporto per l'inferenza del modello Llama 3.1 405B tramite NxD Inference, eseguita su una singola istanza trn2.48xlarge. Questa versione aggiorna i Deep Learning Containers (DLC) e le Deep Learning AMI (DLAMI), introducendo il supporto per numerose architetture di modelli, tra cui Llama 3.2, Llama 3.3 e i modelli Mixture-of-Experts (MoE). Tra le nuove funzionalità di inferenza figurano la quantizzazione dei pesi in formato FP8 e il flash decoding per supportare la decodifica speculativa nei Transformers NeuronX (TNx). Inoltre, sono stati aggiunti nuovi esempi di training e funzionalità, come il supporto per HuggingFace Llama 3/3.1 70B sulle istanze Trn2 e il supporto DPO per l'allineamento del modello dopo l'addestramento.

AWS Neuron SDK consente di addestrare e implementare modelli per le istanze Trn1, Trn2 e Inf2, offerte nelle regioni AWS come istanze on demand, riservate, spot o incluse in Savings Plans.

Per un elenco completo delle nuove funzionalità e dei miglioramenti di Neuron 2.21 e per iniziare a utilizzare Neuron, consulta: