Istanze Trn1 di Amazon EC2

Addestramento ad alte prestazioni e conveniente di modelli di IA generativa

Nozioni di base sulle istanze Trn1 utilizzando AWS Neuron

Le istanze Trn1 di Amazon Elastic Compute Cloud (EC2), basate sui chip AWS Trainium, sono create appositamente per l'addestramento di deep learning (DL) ad alte prestazioni di modelli di IA generativa, inclusi modelli linguistici di grandi dimensioni (LLM) e modelli di diffusione latente. Le istanze Trn1 offrono fino al 50% di risparmio sui costi di addestramento rispetto ad altre istanze Amazon EC2 paragonabili. È possibile utilizzare le istanze Trn1 per addestrare modelli di IA generativa e DL con oltre 100 miliardi di parametri su un'ampia gamma di applicazioni, come riepilogo del testo, generazione di codice, risposta a domande, generazione di immagini e video, consigli e rilevamento di frodi.

L’SDK AWS Neuron consente agli sviluppatori di addestrare modelli su AWS Trainium e di implementarli sui chip AWS Inferentia. Si integra in modo nativo con framework come PyTorch e TensorFlow, così che sia possibile continuare a utilizzare i flussi di lavoro e il codice esistenti per addestrare modelli sulle istanze Trn1. Per conoscere l'attuale supporto di Neuron per framework e librerie di machine learning (ML), architetture di modelli e ottimizzazioni hardware, consulta la documentazione di Neuron.

Le istanze Trn1n sono ora disponibili

Le istanze Trn1n raddoppiano la larghezza di banda della rete (rispetto alle istanze Trn1) di Elastic Fabric Adapter (EFAv2) fino a 1600 Gbps. L'aumento della larghezza di banda offre fino al 20% in meno di tempo di addestramento rispetto a Trn1 per l'addestramento di modelli di IA generativa a uso intensivo di rete, come i modello linguistico di grandi dimensioni (LLM) e la miscela di esperti (MoE).

Nuove istanze Trn1 di Amazon EC2 | Amazon Web Services (1:34)

Vantaggi

Riduci i tempi di addestramento dei modelli con oltre 100 miliardi di parametri

Le istanze Trn1 sono progettate appositamente per DL ad alte prestazioni e riducono i tempi di addestramento da mesi a settimane, o addirittura giorni. Con tempi di addestramento ridotti, puoi iterare più velocemente, creare modelli più innovativi e aumentare la produttività. Le istanze Trn1n offrono un tempo di addestramento fino al 20% più veloce rispetto alle istanze Trn1 per i modelli che beneficiano di una maggiore larghezza di banda della rete.

Riduci i costi di calibrazione e pre-addestramento

Le istanze Trn1 offrono prestazioni elevate e al contempo risparmi sui costi di addestramento fino al 50% rispetto ad altre istanze Amazon EC2 comparabili.

Usa i framework e le librerie di ML esistenti

Usa l'SDK AWS Neuron per estrarre le prestazioni complete delle istanze Trn1. Con Neuron puoi utilizzare i framework ML più diffusi, come PyTorch e TensorFlow, e continuare a utilizzare il codice e i flussi di lavoro esistenti per addestrare modelli su istanze Trn1. Per iniziare rapidamente con le istanze Trn1, consulta esempi di modelli comuni nella documentazione di Neuron.

Scala fino a 6 exaflop con EC2 UltraClusters

Le istanze Trn1 supportano fino a 800 Gbps di larghezza di banda della rete Elastic Fabric Adapter (EFAv2) di seconda generazione. Le istanze Trn1n supportano fino a 1600 Gbps di larghezza di banda della rete EFAv2, in modo da fornire prestazioni ancora più elevate per i modelli ad alta intensità di rete. Entrambe le istanze sono implementate in EC2 UltraCluster che consentono di aggiungere fino a 30.000 chip Trainium, interconnessi con una rete non bloccante su scala petabit per fornire 6 exaflop di capacità di calcolo.

Come funziona

Utilizzo di AWS DLAMI
Utilizzo di Amazon EKS
Utilizzo di Amazon ECS
Uso di Amazon SageMaker

Utilizzo di AWS DLAMI
Ingrandisci e leggi la descrizione dell'immagine.

La prima sezione intitolata "Applicazione utente" mostra i principali metodi che è possibile utilizzare per avviare automaticamente AWS Deep Learning AMI (DLAMI) e le istanze Trn1 di Amazon EC2: Interfaccia della linea di comando AWS (AWS CLI), Strumenti e kit SDK AWS e le API di controllo di AWS Cloud. Il secondo metodo principale per avviare un DLAMI dall'interfaccia web è la console di gestione AWS.

Passando dal DLAMI, la sezione successiva mostra le istanze Trn1 di Amazon EC2 lanciate dal DLAMI selezionato.

Un altro raggruppamento mostra un terminale locale, un terminale remoto EC2 e uno script applicativo che possono essere utilizzati per aggiornare e gestire un DLAMI per avviare istanze EC2 in base agli aggiornamenti.
Utilizzo di Amazon EKS
Ingrandisci e leggi la descrizione dell'immagine.

Il primo riquadro mostra come Amazon Elastic Kubernetes Service (EKS) viene utilizzato per creare cluster Kubernetes basati su Amazon EKS Distro.

Dopo aver creato i cluster, puoi implementare i nodi worker Trn1 o Trn1n per il cluster EKS.

Puoi quindi eseguire i tuoi carichi di lavoro di addestramento su Kubernetes.
Utilizzo di Amazon ECS
Ingrandisci e leggi la descrizione dell'immagine.

Nella prima fase del flusso di lavoro, Amazon Elastic Container Registry (ECR) viene utilizzato per creare immagini e archiviarle utilizzando ECR o qualsiasi altro repository.

Successivamente, puoi utilizzare Amazon Elastic Container Service (ECS) per selezionare l'immagine del container di deep learning (DLC) per il carico di lavoro.

Quindi, implementa il tuo carico di lavoro di addestramento sul server dell'istanza Amazon EC2 Trn1 o Trn1n.

Infine, utilizza Amazon ECS per gestire i container.
Uso di Amazon SageMaker
Ingrandisci e leggi la descrizione dell'immagine.

Innanzitutto, seleziona le istanze Trn1 o Trn1n (ml.trn1 o ml.trn1n) come opzione di addestramento SageMaker.

Viene applicato un modello di fatturazione al secondo e paghi in base all'utilizzo. È possibile utilizzare le librerie di addestramento distribuite e il compilatore di addestramento SageMaker per scalare e migliorare le prestazioni.

Successivamente, applica l'ottimizzazione del modello di automazione per l'ottimizzazione degli iperparametri.

Quindi, l'interattività e il monitoraggio vengono raggiunti attraverso il debug, la profilazione e la gestione degli esperimenti. Ottimizza i costi con un addestramento Spot gestito.

Infine, salva gli artefatti del modello risultante per il tuo modello addestrato in un bucket Amazon S3.

Caratteristiche

Fino a 3 petaflop con AWS Trainium

Le istanze Trn1 sono alimentate da un massimo di 16 chip AWS Trainium appositamente progettati per accelerare l'addestramento DL e fornire fino a 3 petaflop di potenza di elaborazione FP16/BF16. Ogni chip include due NeuronCore di seconda generazione.

Fino a 512 GB di memoria dell'acceleratore ad alta larghezza di banda

Per supportare un parallelismo efficiente di dati e modelli, ogni istanza Trn1 dispone di 512 GB di memoria dell’acceleratore condivisa (HBM) con 9,8 TB/s di larghezza di banda di memoria totale.

Reti e archiviazione ad alte prestazioni

Per supportare l'addestramento di modelli ad alta intensità di rete, come Mixture of Experts (MoE) e Generative Pre-Training Transformers (GPT), ogni istanza Trn1n offre fino a 1600 Gbps di larghezza di banda della rete EFAv2. Ogni istanza Trn1 supporta fino a 800 Gbps di larghezza di banda EFAv2. EFAv2 velocizza l'addestramento distribuito offrendo un miglioramento fino al 50% delle prestazioni di comunicazione collettiva rispetto agli EFA di prima generazione. Queste istanze supportano anche fino a 80 Gbps di larghezza di banda Amazon Elastic Block Store (EBS) e fino a 8 TB di archiviazione locale su unità a stato solido (SSD) NVMe per un accesso rapido al carico di lavoro a set di dati di grandi dimensioni.

Interconnessione NeuronLink

Per una connettività rapida tra chip Trainium e comunicazioni collettive semplificate, le istanze Trn1 supportano fino a 768 GB/s di NeuronLink, un'interconnessione non bloccante ad alta velocità.

Ottimizzazione per nuovi tipi di dati

Per offrire prestazioni elevate e raggiungere gli obiettivi di precisione, le istanze Trn1 sono ottimizzate per FP32, TF32, BF16, FP16, UINT8 e il nuovo tipo di dati FP8 (cFP8) configurabile.

Ottimizzazioni DL all'avanguardia

Per supportare la rapida innovazione di DL e IA generativa, le istanze Trn1 presentano diverse novità che le rendono flessibili ed estensibili per addestrare modelli DL in continua evoluzione. Le istanze Trn1 dispongono di ottimizzazioni hardware e supporto software per forme di input dinamiche. Per consentire il supporto di nuovi operatori in futuro, sono compatibili con operatori personalizzati scritti in C++. Supportano inoltre l'arrotondamento stocastico, un metodo di arrotondamento probabilistico per ottenere prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.

Clienti

Più di 10.000 organizzazioni in tutto il mondo, tra cui Comcast, Condé Nast e oltre il 50% delle aziende Fortune 500, si affidano a Databricks per unificare dati, analisi e intelligenza artificiale.

"Migliaia di clienti hanno implementato Databricks su AWS, dando la possibilità di utilizzare MosaicML per pre-addestrare, mettere a punto e servire modelli di base per una varietà di casi d'uso. AWS Trainium ci offre la scalabilità e le alte prestazioni necessarie per addestrare i nostri modelli Mosaic MPT e a basso costo. Man mano che addestriamo i nostri modelli Mosaic MPT di nuova generazione, Trainium2 consentirà di creare modelli ancora più velocemente, consentendoci di fornire ai nostri clienti scalabilità e prestazioni senza precedenti in modo che possano portare le proprie applicazioni di IA generativa sul mercato più rapidamente".

Naveen Rao, VP of Generative AI, Databricks

Con la missione di "reinventare il meccanismo di creazione di valore e promuovere l'umanità", Stockmark aiuta molte aziende a creare e costruire attività innovative fornendo tecnologie all'avanguardia per l'elaborazione del linguaggio naturale.

"Con 16 nodi di istanze Amazon EC2 Trn1 alimentati dai chip AWS Trainium, abbiamo sviluppato e rilasciato stockmark-13b, un modello linguistico di grandi dimensioni con 13 miliardi di parametri, pre-addestrato da zero su un corpus giapponese di 220 miliardi di token. Il corpus include gli ultimi testi relativi ai domini aziendali fino a settembre 2023. Il modello ha ottenuto il punteggio JSQuAD più alto (0,813) nel benchmark JGLUE (Japanese General Language Understanding Evaluation) rispetto ad altri modelli equivalenti. È disponibile su Hugging Face Hub e può essere utilizzato commercialmente con la licenza MIT. Le istanze Trn1 ci hanno aiutato a ottenere una riduzione dei costi di formazione del 20% rispetto alle istanze GPU equivalenti".

Kosuke Arima, CTO, Stockmark Co., Ltd.

RICOH offre soluzioni per l'ambiente di lavoro e servizi di trasformazione digitale progettati per gestire e ottimizzare il flusso di informazioni tra le aziende.

"La migrazione alle istanze Trn1 è stata piuttosto semplice. Siamo stati in grado di completare l'addestramento del nostro modello di parametri 13B in soli 8 giorni. Sulla base di questo successo, non vediamo l'ora di sviluppare e addestrare il nostro modello di parametri 70B su Trainium e siamo entusiasti del potenziale di questi casi nell'addestramento dei nostri modelli in modo più rapido ed economico."

Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH

Helixon

"In HeliXon, creiamo soluzioni di intelligenza artificiale di nuova generazione per terapie a base di proteine. Il nostro obiettivo è sviluppare strumenti di intelligenza artificiale che consentano agli scienziati di decifrare la funzione e l'interazione delle proteine, interrogare set di dati genomici su larga scala per l'identificazione dei bersagli, e infine progettare terapie come anticorpi e terapie cellulari. Oggi utilizziamo librerie di distribuzione dell'addestramento come FSDP per parallelizzare l'addestramento dei modelli su diversi server basati su GPU, ma ci vogliono ancora settimane per addestrare un singolo modello. Siamo entusiasti di utilizzare le istanze Trn1 di Amazon EC2, dotate della massima larghezza di banda della rete (800 Gbps) disponibile in AWS per migliorare le prestazioni dei nostri processi di addestramento distribuiti e ridurre i tempi di addestramento dei nostri modelli, riducendo al tempo stesso i costi".

Jian Peng, CEO, Helixon

Money Forward

Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria equa e aperta.

"Abbiamo lanciato un servizio di chatbot IA su larga scala sulle istanze Inf1 di Amazon EC2 e ridotto la nostra latenza di inferenza del 97% rispetto a istanze analoghe basate su GPU, riducendo al contempo i costi. Poiché continuiamo a perfezionare periodicamente modelli NLP personalizzati, è importante anche ridurre i tempi e i costi di addestramento dei modelli. Sulla base della nostra esperienza derivante dalla corretta migrazione del carico di lavoro di inferenza su istanze Inf1 e sul nostro lavoro iniziale su istanze EC2 Trn1 basate su AWS Trainium, prevediamo che le istanze Trn1 forniranno un valore aggiunto nel miglioramento delle prestazioni e dei costi di ML end-to-end".

Takuya Nakade, CTO, Money Forward Inc.

Magic

Magic è un'azienda di ricerca e prodotti integrati che sta sviluppando un'IA che venga percepita come un collega allo scopo di rendere il mondo più produttivo.

"L'addestramento di modelli autoregressivi di grandi dimensioni basati su Transformer è una componente essenziale del nostro lavoro. Le istanze Trn1 basate su AWS Trainium sono progettate specificamente per questi carichi di lavoro e offrono scalabilità quasi infinita, rete tra nodi veloce e supporto avanzato per tipi di dati a 16 e 8 bit. Le istanze Trn1 ci aiuteranno ad addestrare modelli di grandi dimensioni più velocemente e a un costo inferiore. Siamo particolarmente entusiasti del supporto nativo per l'arrotondamento stocastico BF16 in Trainium, il quale aumenta le prestazioni mentre la precisione numerica è indistinguibile da quella completa".

Eric Steinberger, Cofounder e CEO, Magic

Cactus

CACTUS offre una suite di prodotti e soluzioni per ricercatori e organizzazioni in grado di migliorare il modo in cui la ricerca viene finanziata, pubblicata, comunicata e scoperta.

"In Cactus Labs sfruttiamo la potenza dell'IA con ricerche incentrate sull'elaborazione del linguaggio naturale, sulla classificazione e sulle raccomandazioni, sull'intelligenza artificiale conversazionale, sui modelli linguistici di grandi dimensioni, sulla visione artificiale, AR/VR e XAI. In linea con il nostro obiettivo di consentire un addestramento più rapido dei modelli di machine learning e permettere ai nostri ricercatori di eseguire più esperimenti, gestendo al contempo i costi dell'infrastruttura, siamo stati lieti di valutare AWS Trainium. Le funzionalità preconfigurate di AWS Trainium, come l'ottimizzazione XLA, l'addestramento in parallelo di dati con più operatori e la memorizzazione nella cache di grafici, ci sono davvero utili per ridurre i tempi di addestramento e aiutarci a eseguire più esperimenti in modo più rapido ed economico".

Nishchay Shah, CTO e Head of Emerging Products, Cactus Communications

Watashiha

Watashiha offre un servizio di IA chatbot innovativo e interattivo, "OGIRI AI", che incorpora l'elemento umoristico per fornire una risposta divertente all'istante a una domanda.

"Utilizziamo modelli linguistici di grandi dimensioni per incorporare l'umorismo e offrire un'esperienza più pertinente e colloquiale ai nostri clienti sui nostri servizi di intelligenza artificiale. Ciò richiede di pre-addestrare e calibrare questi modelli frequentemente. Abbiamo pre-addestrato un modello giapponese basato su GPT sull'istanza EC2 Trn1.32xlarge, sfruttando il parallelismo di tensori e dati. L'addestramento è stato completato entro 28 giorni con una riduzione dei costi del 33% rispetto alla nostra precedente infrastruttura basata su GPU. Poiché i nostri modelli continuano a crescere rapidamente in termini di complessità, attendiamo con impazienza le istanze Trn1n con il doppio della larghezza di banda della rete di Trn1, così da accelerare l'addestramento di modelli più grandi".

Yohei Kobashi, CTO, Watashiha, K.K.

Partner

"In PyTorch acceleriamo il passaggio del machine learning dalla prototipazione per la ricerca alla produzione per i clienti. Abbiamo collaborato a lungo con il team AWS per fornire supporto PyTorch nativo per le nuove istanze Amazon EC2 Trn1 basate su AWS Trainium, create appositamente per l'addestramento di modelli di deep learning. Gli sviluppatori che creano modelli PyTorch possono iniziare l'addestramento sulle istanze Trn1 con modifiche minime al codice. Inoltre, abbiamo collaborato con la comunità OpenXLA per abilitare le librerie distribuite PyTorch per una facile migrazione dei modelli da istanze basate su GPU a istanze Trn1. Siamo entusiasti dell'innovazione che le istanze Trn1 apportano alla comunità PyTorch, tra cui tipi di dati più efficienti, forme dinamiche, operatori personalizzati, arrotondamento stocastico ottimizzato per l'hardware e modalità di debug eager. Tutto ciò rende Trn1 adatto per un'ampia adozione da parte degli sviluppatori di PyTorch, inoltre attendiamo con impazienza futuri contributi congiunti a PyTorch per ottimizzare ulteriormente le prestazioni di addestramento".

Geeta Chauhan, Applied AI, Engineering Manager, PyTorch

"La missione di Hugging Face è di democratizzare il machine learning per aiutare gli sviluppatori di ML di tutto il mondo a risolvere problemi nel mondo reale. E la chiave per farlo è garantire che i modelli più recenti e migliori vengano eseguiti nel modo più rapido ed efficiente possibile sui migliori chip ML del cloud. Siamo incredibilmente entusiasti del potenziale che Inferentia2 diventi il nuovo modo standard per implementare modelli di IA generativa su larga scala. Con Inf1, abbiamo registrato una riduzione dei costi fino al 70% rispetto alle tradizionali istanze basate su GPU e con Inf2 abbiamo riscontrato una latenza fino a 8 volte inferiore per i Transformers simili a BERT rispetto a Inferentia1. Con Inferentia2, la nostra community sarà in grado di adattare facilmente queste prestazioni agli LLM con una scala di oltre 100 miliardi di parametri, oltre che ai più recenti modelli di diffusione e visione artificiale".

Servizi Amazon che utilizzano istanze Trn1

Amazon

Il motore di ricerca di prodotti di Amazon indicizza miliardi di prodotti, soddisfa ogni giorno miliardi di domande dei clienti ed è uno dei servizi più utilizzati al mondo.

"Stiamo addestrando modelli linguistici di grandi dimensioni (LLM) multimodali (testo + immagine), multilingue, con più impostazioni internazionali, pre-addestrati su più attività e che coinvolgono diverse entità (prodotti, domande, marchi, recensioni, ecc.) per migliorare l'esperienza di acquisto dei clienti. Le istanze Trn1 forniscono un modo più sostenibile per addestrare gli LLM, offrendo il miglior rapporto prestazioni/watt rispetto ad altre soluzioni di machine learning accelerato, oltre a garantirci prestazioni elevate a costi più bassi. Abbiamo intenzione di esplorare il nuovo tipo di dati FP8 configurabile e l'arrotondamento stocastico con accelerazione hardware per aumentare ulteriormente l'efficienza dell'addestramento e la velocità di sviluppo".

Trishul Chilimbi, vicepresidente di Amazon Search

Nozioni di base

Uso di Amazon SageMaker

Puoi addestrare modelli su istanze Trn1 con facilità utilizzando Amazon SageMaker. Riduci in modo significativo i tempi e i costi di addestramento e ottimizzazione dei modelli ML senza la necessità di gestire l'infrastruttura. Con SageMaker, è possibile utilizzare strumenti integrati per gestire e tenere traccia degli esperimenti di addestramento, scegliere automaticamente gli iperparametri ottimali, eseguire il debug dei processi di addestramento e monitorare l'uso delle risorse di sistema.

Utilizzo delle AMI di AWS Deep Learning

Le AWS Deep Learning AMI (DLAMI) forniscono agli esperti di deep learning (DL) e ai ricercatori l'infrastruttura e gli strumenti necessari per velocizzare i processi di deep learning su AWS, su qualsiasi scala. I driver AWS Neuron sono preconfigurati nel DLAMI per addestrare i modelli DL in modo ottimale sulle istanze Trn1.

Utilizzo dei container AWS per il Deep Learning

Adesso è possibile implementare istanze Trn1 in Amazon Elastic Kubernetes Service (EKS), un servizio Kubernetes interamente gestito, e in Amazon Elastic Container Service (ECS), un servizio di orchestrazione di container interamente gestito di Amazon. Neuron è disponibile anche preinstallato nei container AWS per il Deep Learning. Per saperne di più sull'esecuzione di container sulle istanze Trn1, consulta i tutorial sui container Neuron.

Dettagli del prodotto

Dimensioni istanza	Chip Trainium	Acceleratore Memoria (GB)	vCPU	Istanza Memoria (GiB)	Locale NVMe Archiviazione (TB)	Rete Larghezza di banda (Gb/s)	EFA e RDMA Supporto	EBS Larghezza di banda (Gb/s)	On demand Prezzo all'ora	1 anno Riservate Istanza Effettivo Orario*	3 anni Riservate Istanza Effettivo Orario*
trn1.2xlarge	1	32	8	32	0,5	Fino a 12,5	No	Fino a 20	1,34 USD	0,79 USD	0,4744 USD
trn1.32xlarge	16	512	128	512	8	800	Sì	80	21,50 USD	12,60 USD	7,59 USD
trn1n.32xlarge	16	512	128	512	8	1.600	Sì	80	24,78 USD	14,52 USD	8,59 USD

Registrati per creare un account AWS

Registrati per creare un account AWS

Ottieni accesso istantaneo al piano gratuito di AWS.

Impara con semplici tutorial

Impara con i tutorial di 10 minuti

Esplora e impara con semplici tutorial.

Inizia a lavorare con EC2 nella console

Inizia a lavorare nella console

Inizia a creare seguendo le istruzioni contenute nelle guide dettagliate per avviare un progetto AWS.