- Prodotto›
- Machine learning›
- AWS Trainium
AWS Trainium
Trainium3, il nostro primo chip AWS basato sull’IA a 3 nm creato appositamente per offrire la migliore economia dei token per applicazioni di agentica, ragionamento e generazione di video di nuova generazione
Perché scegliere Trainium?
AWS Trainium è una famiglia di acceleratori di intelligenza artificiale appositamente progettati, Trn1, Trn2 e Trn3; sono realizzati per offrire prestazioni scalabili ed efficienza dei costi per la formazione e l'inferenza su un'ampia gamma di carichi di lavoro di IA generativa
La famiglia AWS Trainium
Trainium1
Il chip AWS Trainium di prima generazione alimenta le istanze Trn1 di Amazon Elastic Compute Cloud (Amazon EC2), che hanno costi di addestramento fino al 50% inferiori rispetto alle istanze Amazon EC2 comparabili. Molti clienti, tra cui Ricoh, Karakuri, SplashMusic e Arcee AI, si stanno rendendo conto dei vantaggi in termini di prestazioni e costi delle istanze Trn1.
Trainium2
Il chip AWS Trainium2 offre prestazioni fino a quattro volte superiori rispetto a Trainium di prima generazione. Le istanze Amazon EC2 Trn2 e Trn2 UltraServers basate su Trainium2 sono realizzate appositamente per l’IA generativa e offrono un rapporto prezzo/prestazioni migliore del 30-40% rispetto a Trn2 EC2 e alle ostanzeP5e basate su GPU. Le istanze Trn2 presentano fino a 16 chip Trainium2 e UltraServer Trn2 con fino a 64 chip Trainium2 interconnessi con NeuronLink, la nostra interconnessione chip-to-chip proprietaria. È possibile utilizzare le istanze Trn2 e gli UltraServer per addestrare e implementare i modelli più impegnativi, che includono modelli linguistici di grandi dimensioni (LLM), modelli multimodali e trasformatori di diffusione, al fine di creare un’ampia gamma di applicazioni di IA generativa di nuova generazione.
Trainium3
Gli UltraServer Trn3, alimentati dal nostro chip IA di quarta generazione, AWS Trainium3, il primo chip IA a 3 nm di AWS, sono progettati appositamente per offrire la migliore economia dei token per applicazioni di agentiche, di ragionamento e di generazione di video all’avanguardia. Gli UltraServer Trn3 offrono prestazioni fino a 4,4 volte superiori, una larghezza di banda di memoria 3,9 volte superiore e un'efficienza energetica oltre 4 volte migliore rispetto agli UltraServer Trn2, fornendo il miglior rapporto qualità-prezzo per la formazione e il servizio di modelli su scala di frontiera, tra cui apprendimento per rinforzo, Mixture-of-Experts (MoE), ragionamento e architetture a lungo contesto.
Ogni chip AWS Trainium3 fornisce 2,52 petaflop (PFLOP) di calcolo FP8, aumenta la capacità di memoria di 1,5 volte e la larghezza di banda di 1,7 volte rispetto a Trainium2 a 144 GB di memoria HBM3e e 4,9 TB/s di larghezza di banda di memoria; Trainium3 è progettato per carichi di lavoro densi e paralleli eseguiti da esperti con tipi di dati avanzati (MXFP8 e MXFP4)) e un migliore equilibrio tra memoria e calcolo per attività in tempo reale, multimodali e di ragionamento.
Su Amazon Bedrock, Trainium3 è l'acceleratore più veloce, che offre prestazioni fino a 3 volte più veloci rispetto a Trainium2 e un'efficienza energetica 3 volte superiore rispetto a qualsiasi altro acceleratore del servizio. Nei test di servizio su larga scala (ad esempio, GPT-OSS), Trn3 offre token di output per megawatt oltre 5 volte superiori rispetto a Trn2 con una latenza simile per utente, consentendo un'inferenza di throughput più sostenibile e più elevata su larga scala.
Creato per gli sviluppatori
Le nuove istanze basate su Trainium3 sono state create per i ricercatori di intelligenza artificiale e alimentate dall'SDK AWS Neuron, per sbloccare
prestazioni rivoluzionarie.
Con l'integrazione nativa di PyTorch, gli sviluppatori possono addestrare e implementare senza modificare una sola riga di codice. Per gli ingegneri
delle prestazioni dell’IA, abbiamo consentito un accesso più approfondito a Trainium3, in modo che gli sviluppatori possano ottimizzare le prestazioni,
personalizzare i kernel e spingere ulteriormente i tuoi modelli. Poiché l'innovazione favorisce l'apertura, ci impegniamo
a interagire con i nostri sviluppatori attraverso strumenti e risorse open source.
Per saperne di più, consulta le istanze Trn3 di Amazon EC2, esplora AWS Neuron SDK o registrati per accedere all'anteprima.
Vantaggi
Gli UltraServer Trn3 presentano le ultime innovazioni nella tecnologia UltraServer scalabile, con NeuronSwitch-v1 per
collettivi complessivamente più veloci su un massimo di 144 chip Trainium3. In totale, un singolo UltraServer Trn3 fornisce
fino a 20,7 TB di HBM3e, 706 TB/s di larghezza di banda di memoria e 362 PFLOP FP8, per garantire prestazioni fino a 4,4 volte superiori
e un'efficienza energetica oltre 4 volte migliore rispetto agli UltraServer Trn2. Trn3 offre le massime
prestazioni al minor costo per l'addestramento e l'inferenza con i più recenti modelli MoE e di ragionamento di tipo 1T+ e consente un throughput significativamente più elevato per il servizio GPT-OSS su larga scala rispetto alle
istanze basate su Trainium2.
Gli UltraServer Trn2 rimangono un'opzione ad alte prestazioni ed economica per l’addestramento dell’IA generativa e l’inferenza di
modelli con parametri fino a 1T. Le istanze Trn2 presentano fino a 16 chip Trainium2 e la funzionalità Trn2 UltraServers
fino a 64 chip Trainium2 collegati a NeuronLink, un'interconnessione chip-to-chip proprietaria.
Le istanze Trn1 sono dotate di un massimo di 16 chip Trainium e forniscono fino a 3 PFLOP FP8, 512 GB di HBM con 9,8 TB/s di
larghezza di banda di memoria e fino a 1,6 Tbps di rete EFA.
Creato per la ricerca e la sperimentazione
L’SDK AWS Neuron consente di estrarre le prestazioni complete dalle istanze Trn3, Trn2 e Trn1 in modo da poterti concentrare sulla creazione e sull’implementazione di modelli e sull’accelerazione del time-to-market. AWS Neuron si integra in modo nativo con, PyTorch Jax e librerie fondamentali come Hugging Face, vLLM, PyTorch Lightning e altre ancora. Ottimizza i modelli pronti all’uso per l’addestramento distribuito e l’inferenza, offrendo al contempo approfondimenti per la profilazione e il debug. AWS Neuron si integra con servizi come Amazon SageMaker, Amazon Sagemaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster e AWS Batch, oltre a servizi di terze parti come Ray (Anyscale), Domino Data Lab e Datadog.
Per fornire prestazioni elevate rispettando al contempo gli obiettivi di precisione, AWS Trainium supporta una gamma di tipi di dati
di precisione misti come BF16, FP16, FP8, MXFP8 e MXFP4. Per sostenere il rapido ritmo dell'innovazione nell'IA generativa,
Trainium2 e Trainium3 sono dotati di ottimizzazioni hardware per una sparsità 4x (16:4), microscalabilità, arrotondamento
stocastico e motori collettivi dedicati.
Neuron consente agli sviluppatori di ottimizzare i propri carichi di lavoro utilizzando Neuron Kernel Interface (NKI) per lo sviluppo del kernel. NKI espone l'intero Trainium ISA, consentendo il controllo completo sulla programmazione a livello di istruzione, sull'allocazione della memoria e sulla pianificazione dell'esecuzione. Oltre a creare i propri kernel, gli sviluppatori possono utilizzare la Neuron Kernel Library, che è open source, pronta per distribuire kernel ottimizzati. Infine, Neuron Explore offre una visibilità completa dello stack, connettendosi al codice degli sviluppatori fino ai motori nell'hardware.
Clienti
Clienti come Databricks, Ricoh, Karakuri, SplashMusic e altri si stanno ottenendo vantaggi in termini di prestazioni e costi delle istanze Trn1.
Clienti tra cui Anthropic, Databricks, Poolside, Ricoh e NinjaTech AI stanno ottenendo significativi vantaggi in termini di prestazioni e costi sulle istanze Trn1 e Trn2.
I primi ad adottare Trn3 stanno raggiungendo nuovi livelli di efficienza e scalabilità per la prossima generazione di modelli di IA generativa su larga scala.