AWS Trainium
Ottieni prestazioni elevate per l'addestramento di deep learning e IA generativa riducendo al contempo i costi
Perché scegliere Trainium?
I chip AWS Trainium sono una famiglia di chip IA creati appositamente da AWS per l'addestramento e l'inferenza dell'IA per offrire prestazioni elevate riducendo i costi.
Il chip AWS Trainium di prima generazione alimenta le istanze Trn1 di Amazon Elastic Compute Cloud (Amazon EC2), che hanno costi di addestramento fino al 50% inferiori rispetto alle istanze Amazon EC2 comparabili. Molti clienti, tra cui Databricks, Ricoh, NinjaTech AI e Arcee AI, si stanno rendendo conto dei vantaggi in termini di prestazioni e costi delle istanze Trn1.
Il chip AWS Trainium2 offre prestazioni fino a 4 volte superiori rispetto a Trainium di prima generazione. Le istanze Amazon EC2 Trn2 basate su Trainium2 sono realizzate appositamente per l'IA generativa e offrono un rapporto prezzo/prestazioni migliore del 30-40% rispetto all'attuale generazione di istanze EC2 P5e e P5en basate su GPU. Le istanze Trn2 sono dotate di 16 chip Trainium2 interconnessi con NeuronLink, la nostra interconnessione chip-to-chip proprietaria. È possibile utilizzare le istanze Trn2 per addestrare e implementare i modelli più impegnativi, che includono modelli linguistici di grandi dimensioni (LLM), modelli multimodali e trasformatori di diffusione, al fine di creare un'ampia gamma di applicazioni di IA generativa di nuova generazione. Gli UltraServer Trn2, un'offerta EC2 completamente nuova (disponibile in anteprima), sono ideali per i modelli più grandi che richiedono memoria e larghezza di banda di memoria maggiori rispetto a quelle fornite dalle istanze EC2 autonome. Il design UltraServer utilizza NeuronLink per connettere 64 chip Trainium2 su quattro istanze Trn2 in un unico nodo, sbloccando nuove funzionalità. Per l'inferenza, gli UltraServer consentono di fornire tempi di risposta leader del settore per creare le migliori esperienze in tempo reale. Per quanto riguarda l'addestramento dei modelli, gli UltraServer ne aumentano la velocità e l'efficienza, grazie a una comunicazione collettiva più rapida per il parallelismo dei modelli rispetto alle istanze autonome.
È possibile iniziare ad addestrare e implementare i modelli con le istanze Trn2 e Trn1 grazie al supporto nativo per i framework di machine learning (ML) più diffusi come PyTorch e JAX.
Vantaggi
IA generativa ad alte prestazioni e conveniente
Gli UltraServer e le istanze Trn2 offrono prestazioni rivoluzionarie in Amazon EC2 per l'addestramento e l'inferenza dell'IA generativa. Ogni UltraServer Trn2 dispone di 64 chip Trainium2 interconnessi con NeuronLink e della nostra interconnessione chip-to-chip proprietaria; offre inoltre fino a 83,2 petaflop di calcolo FP8, 6 TB di HBM3 con 185 terabyte al secondo (TBps) di larghezza di banda della memoria e 12,8 terabit al secondo (Tbps) di rete Elastic Fabric Adapter (EFA). Ogni istanza Trn2 dispone di 16 chip Trainium2 collegati a NeuronLink e offre fino a 20,8 petaflop di elaborazione FP8, 1,5 TB di HBM3 con 46 TBps di larghezza di banda della memoria e 3,2 Tbps di rete EFA. L'istanza Trn1 include fino a 16 chip Trainium e offre fino a 3 petaflop di elaborazione FP8, 512 GB di HBM con 9,8 TBps di larghezza di banda della memoria e fino a 1,6 Tbps di rete EFA.
Supporto nativo per framework e librerie di ML
L'SDK AWS Neuron consente di estrarre le prestazioni complete dalle istanze Trn2 e Trn1 in modo da poterti concentrare sulla creazione e sull'implementazione di modelli e sull'accelerazione del time-to-market. AWS Neuron si integra in modo nativo con JAX, PyTorch e librerie fondamentali come Hugging Face, PyTorch Lightning e NeMo. AWS Neuron supporta oltre 100.000 modelli sull'hub di modelli Hugging Face, inclusi quelli popolari come la famiglia di modelli Llama di Meta e Stable Diffusion XL. Ottimizza i modelli pronti all'uso per l'addestramento distribuito e l'inferenza, offrendo al contempo approfondimenti per la profilazione e il debug. AWS Neuron si integra con servizi come Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster e AWS Batch, oltre a servizi di terze parti come Ray (Anyscale), Domino Data Lab e Datadog.
Ottimizzazioni di IA all'avanguardia
Per offrire prestazioni elevate e raggiungere gli obiettivi di precisione, i chip Trainium sono ottimizzati per FP32, TF32, BF16, FP16 e il nuovo tipo di dati FP8 (cFP8) configurabile. Per supportare il rapido ritmo dell'innovazione nell'IA generativa, Trainium2 dispone di ottimizzazioni hardware per la carenza 4x (16:4), il microscaling, l'arrotondamento stocastico e motori collettivi dedicati.
Progettato per la ricerca sull'IA
Neuron Kernel Interface (NKI) consente di accedere direttamente all'architettura del set di istruzioni (ISA) utilizzando un ambiente basato su Python con un'interfaccia simile a Triton, che permette di innovare nuove architetture di modelli e kernel di calcolo altamente ottimizzati che superano le tecniche esistenti.