- Amazon EC2›
- Tipi di istanza›
- Istanze Trn3
Istanze AWS EC2 Trn3
Creato appositamente per offrire la migliore economia dei token per applicazioni di agentica, ragionamento e generazione video di nuova generazione.
Perché utilizzare gli UltraServer di Amazon EC2 Trn3?
I modelli di frontiera odierni stanno spostando i modelli multimodali a trilioni di parametri che supportano contesti lunghi oltre 1 milione di token, il che richiede la prossima generazione di elaborazione scalabile e ad alte prestazioni. Gli UltraServer di Amazon EC2 Trn3 e lo stack di sviluppatori AWS Neuron sono progettati appositamente per queste esigenze e offrono le prestazioni, l'efficienza dei costi e l'efficienza energetica necessarie per addestrare e servire la prossima generazione di sistemi agentici e di ragionamento su larga scala.
Gli UltraServer di Amazon EC2 Trn3, alimentati dal nostro chip di IA di quarta generazione Trainium3, il nostro primo chip di IA AWS a 3 nm creato appositamente per offrire la migliore economia dei token per applicazioni di agentica, ragionamento e generazione video di nuova generazione.
L’ UltraServer Trn3 offre prestazioni fino a 4,4 volte superiori, una larghezza di banda di memoria 3,9 volte superiore e un rapporto prestazioni/watt oltre 4 volte migliore rispetto ai nostri UltraServer Trn2, fornendo il miglior rapporto qualità-prezzo per l’addestramento e il servizio di modelli su scala di frontiera, tra cui apprendimento rinforzato, Mixture-of-Experts (MoE), ragionamento e architetture a lungo contesto. Gli UltraServer Trn3 confermano la leadership della famiglia Trainium in termini di rapporto prezzo/prestazioni e scalabilità, aiutandoti a formarti più velocemente e a implementare modelli di fondazione di nuova generazione con prestazioni più elevate e più convenienti.
Gli UltraServer Trn3 possono aumentare verticalmente fino a 144 chip Trainium3 (fino a 362 PFLOP FP8) e sono disponibili in negli UltraClusters EC2 3.0 per scalare fino a centinaia di migliaia di chip. L’UltraServer Trn3 di nuova generazione è dotato di NeuronSwitch-v1, una struttura completa che utilizza NeuronLink-V4 con 2 TB/s di larghezza di banda per chip.
Puoi iniziare facilmente con il supporto nativo per PyTorch, JAX, Hugging Face Optimum Neuron e altre librerie, insieme alla piena compatibilità con Amazon SageMaker, EKS, ECS, AWS Batch e ParallelCluster
Vantaggi
Gli UltraServer Trn3, alimentati dai chip AWS Trainium3, offrono prestazioni fino a 4,4 volte superiori, una larghezza di banda di memoria 3,9 volte superiore e prestazioni per watt 4 volte migliori rispetto ai nostri UltraServer Trn2. Su Amazon Bedrock, Trainium3 è l'acceleratore più veloce, che offre prestazioni fino a 3 volte più veloci rispetto a Trainium2. Questo notevole miglioramento delle prestazioni si traduce anche in un throughput significativamente più elevato per modelli come GPT-OSS che funzionano su larga scala rispetto alle istanze basate su Trainium2, pur mantenendo una bassa latenza per utente.
Ogni UltraServer Trn3 aumenta verticalmente fino a 144 chip Trainium3 e i nuovi rack offrono una densità di chip oltre il doppio rispetto a Trn2, aumentando l'elaborazione per rack e migliorando l'efficienza del data center. Gli UltraServer Trn3 sono basati su AWS Nitro System ed Elastic Fabric Adapter (EFA) e sono distribuiti in EC2 UltraClusters 3.0 non bloccanti e scalabili a più petabit, che consentono di scalare fino a centinaia di migliaia di chip Trainium per l’addestramento e il servizio distribuiti.
Continuando l'eredità di leadership prestazionale di Trainium, le istanze Trn3 offrono un rapporto prezzo/prestazioni migliore rispetto all'eredità degli acceleratori IA, consentendoti di ridurre il costo per token e il costo per esperimento. Un maggiore throughput su carichi di lavoro come GPT-OSS e LLM su scala di frontiera riduce i costi di inferenza e riduce i tempi di addestramento per i modelli più impegnativi.
I chip AWS Trainium3, i nostri primi chip di IA a 3 nm, sono ottimizzati per offrire la migliore economia dei token per applicazioni di agentica, ragionamento e generazione video di nuova generazione. Gli UltraServer Trn3 offrono un'efficienza energetica oltre 4 volte migliore rispetto agli UltraServer Trn2 e su Amazon Bedrock. Nel mondo reale, Trn3 raggiunge token di output per megawatt oltre 5 volte superiori rispetto agli UltraServer Trn2 mantenendo una latenza simile per utente, aiutandoti a raggiungere gli obiettivi di sostenibilità senza compromettere le prestazioni.
Gli UltraServer Trn3 sono basati su AWS Neuron, lo stack di sviluppatori per AWS Trainium e AWS Inferentia, quindi puoi eseguire codice PyTorch e JAX esistente senza modifiche al codice.
TNeuron supporta le librerie ML più diffuse come vLLM, Hugging Face Optimum Neuron, PyTorch Lightning, TorchTitan e si integra con servizi come Amazon SageMaker, Amazon SageMaker HyperPod, Amazon EKS, Amazon ECS, AWS Batch e AWS ParallelCluster.
Funzionalità
Ogni chip AWS Trainium3 offre 2,52 PFLOP FP8 di elaborazione e l’UltraServer Trn3 aumenta verticalmente fino a 144 chip Trainium3, fornendo fino a 362 PFLOP FP8 di calcolo FP8 totali in un singolo UltraServer. Questo inviluppo di elaborazione ad alta densità è progettato per l’addestramento e la gestione di trasformatori su scala di frontiera, modelli Mixture-of-Experts e architetture a lungo contesto.
AWS Trainium3 offre sia capacità di memoria che larghezza di banda rispetto alla generazione precedente, con ogni chip che offre 144 GB di HBM3e e 4,9 TB/s di larghezza di banda di memoria. L’UltraServer Trn3 offre fino a 20,7 TB di HBM3e e 706 TB/s di larghezza di banda di memoria aggregata, consentendo dimensioni di batch maggiori, finestre di contesto estese e un maggiore utilizzo per modelli multimodali, video e di ragionamento di grandi dimensioni.
Gli UltraServer Trn3 introduce NeuronSwitch-v1, una struttura completa che raddoppia la larghezza di banda di interconnessione tra chip rispetto agli UltraServer Trn2, migliorando l'efficienza del modello parallelo e riducendo il sovraccarico di comunicazione per l’addestramento MoE e tensore-parallelo. Gli UltraServer Trn3 supportano fino a 144 chip per UltraServer, oltre 2 volte di più rispetto agli UltraServer Trn2. Per l’addestramento distribuito su larga scala, implementiamo l’UltraServer Trn3 nell’UltraCluster 3.0 con centinaia di migliaia di chip Trainium3 in un'unica rete non bloccante su scala petabit.
Trainium3 supporta le modalità di precisione FP32, BF16, MXFP8 e MXFP4, che consentono di bilanciare precisione ed efficienza tra carichi di lavoro densi e paralleli eseguiti da esperti. I motori di comunicazione collettiva integrati accelerano la sincronizzazione e riducono i costi di addestramento per i modelli di trasformatore, diffusione e Mixture-of-Experts di grandi dimensioni, migliorando il throughput dell’addestramento end-to-end su larga scala.
Gli UltraServer Trn3 sono programmati utilizzando AWS Neuron SDK, che fornisce le librerie di compilazione, runtime, addestramento e inferenza e strumenti di sviluppo per AWS Trainium e AWS Inferentia. La Neuron Kernel Interface (NKI) offre un accesso di basso livello al set di istruzioni Trainium, alla memoria e alla pianificazione delle esecuzioni in modo che i tecnici delle prestazioni possano creare kernel personalizzati e spingere le prestazioni oltre i framework standard. Neuron Explorer offre un ambiente di profilazione e debug unificato, che traccia l'esecuzione dal codice PyTorch e JAX fino alle operazioni hardware e fornisce informazioni utili per strategie di sharding, ottimizzazioni del kernel ed esecuzioni distribuite su larga scala.
Hai trovato quello che cercavi?
Facci sapere la tua opinione in modo da migliorare la qualità dei contenuti delle nostre pagine