- Machine learning›
- AWS Trainium›
- Ricerca AWS Trainium
Build on Trainium
Un programma di investimenti da 110 milioni di dollari per accelerare la ricerca e la formazione sull’IA con AWS Trainium
Cos’è Build on Trainium?
Cluster di ricerca AWS Trainium
Premi per la ricerca di Amazon
Neuron Kernel Interface
Vantaggi
Università partecipanti
Ecco come le principali università stanno beneficiando del programma Build on Trainium.
Massachusetts Institute of Technology
Presso il Device Realization Lab del MIT, stiamo utilizzando AWS Trainium per superare i limiti della ricerca sull’intelligenza artificiale nel settore sanitario. I nostri modelli di segmentazione ecografica 3D e di stima della velocità del suono si addestrano in modo estremamente rapido ed efficiente, riducendo i periodi sperimentali di oltre la metà e ottenendo livelli di precisione all’avanguardia. AWS Trainium ci ha permesso di scalare la nostra ricerca in modi non possibili con i tradizionali sistemi GPU. Addestrando le nostre reti neurali convoluzionali 3D su AWS Trainium (trn.32xlarge), abbiamo raggiunto prestazioni all’avanguardia con un throughput superiore del 50% e costi inferiori rispetto alle istanze NVIDIA A100. Utilizzando un cluster Trainium a 32 nodi, abbiamo condotto in modo efficiente oltre 180 esperimenti di ablazione, riducendo il tempo totale di addestramento da mesi a settimane, e accelerando l’innovazione dell’IA in campo medico al MIT. In futuro, intendiamo utilizzare Trainium per addestrare modelli di agenti IA in grado di gestire e automatizzare il flusso di lavoro dell’ecografia digitale, consentendo ai medici di risparmiare molto tempo e di fornire un’assistenza migliore ai pazienti.”
Carnegie Mellon University
“Il gruppo di ricerca CMU Catalyst lavora sull’ottimizzazione dei sistemi di ML. Il nostro progetto aspira a semplificare l’ottimizzazione tra diversi sistemi di ML. Trainium è l’unica soluzione che offre un controllo di basso livello e un’interfaccia di programmazione accessibile tramite la Neuron Kernel Interface (NKI).
con il supporto di AWS attraverso il programma Build on Trainium, il nostro ricercatore è stato in grado di esplorare ottimizzazioni avanzate su un kernel critico: FlashAttention. Quello che ci ha stupito maggiormente è stata la velocità con cui abbiamo potuto iterare: abbiamo ottenuto miglioramenti significativi rispetto allo stato dell’arte precedente in appena una settimana utilizzando NKI, Neuron profiler e documentazione dell’architettura accessibili pubblicamente. La combinazione di strumenti potenti e informazioni chiare sull’hardware ha reso accessibile al nostro team un’ottimizzazione sofisticata e di basso livello.
AWS Trainium e Neuron Kernel Interface (NKI) consentono ai ricercatori come noi di innovare più velocemente, eliminando gli ostacoli che in genere rallentano il lavoro di ottimizzazione specifico dell’hardware.”
University of California, Berkeley
“Grazie al programma Build on Trainium, il suo team ha ottenuto l’accesso completo al nuovo stack del compilatore open source NKI di AWS Neuron, inclusa la visibilità diretta su ISA e sulle API di Trainium per una pianificazione e un’allocazione della memoria precise. Questo livello di visibilità e controllo consente ai suoi studenti di analizzare più facilmente le opportunità di ottimizzazione e scoprire in modo più efficace implementazioni performanti.”
Christopher Fletcher, Professore associato di informatica presso la University of California, Berkeley
University of Illinios Urbana/Champaign
“L’accesso ad AWS Trainium e Inferentia è stato fondamentale per far progredire la nostra ricerca e formazione su sistemi di intelligenza artificiale efficienti e su larga scala. Utilizziamo queste piattaforme per l’addestramento “mixture of experts” e l’ottimizzazione delle inferenze, al fine di prototipare nuove tecniche di runtime e pianificazione che migliorano la scalabilità, l’efficienza e la portabilità sulle architetture degli acceleratori emergenti. Grazie allo stack Neuron Developer, i ricercatori della UIUC stanno sviluppando nuovo runtime e nuove tecniche di pianificazione che migliorano l’efficienza e la portabilità dei carichi di lavoro dell’IA. Il team è rimasto particolarmente colpito dall’apertura dello stack Neuron Developer, che rende queste piattaforme preziose per la ricerca sul runtime e consente innovazioni in termini di sparsità, gerarchie di memoria ed efficienza comunicativa che vanno oltre le tradizionali architetture GPU.”
University of California Los Angeles
“Grazie ad AWS Trainium e al programma Build on Trainium, io e i miei studenti siamo stati in grado di accelerare in modo significativo le nostre simulazioni di circuiti quantistici. Il progetto ha riunito un forte gruppo di studenti che hanno sviluppato in collaborazione un simulatore ad alte prestazioni, consentendo una sperimentazione più approfondita e un apprendimento pratico in una scala che, semplicemente, non era possibile in precedenza.”
University of Technology Sydney
“Il nostro team di ricerca presso la UTS sta esplorando l’integrazione di algoritmi di watermarking tree-ring sviluppando kernel Neuron NKI personalizzati. Avere accesso allo stack open source Neuron tramite il programma Build on Trainium è qualcosa di rivoluzionario. Ci offre una visibilità senza precedenti sull’architettura di Trainium e la capacità di lavorare direttamente a livello hardware. L’accesso a Trainium ha consentito al nostro team di accelerare in modo significativo i nostri carichi di lavoro di watermarking, riducendo i cicli di iterazione e consentendoci di esplorare modelli e tecniche più complessi. Questa profondità di accesso consente ai nostri ricercatori di prototipare nuove idee, sperimentare ottimizzazioni di basso livello e superare i limiti di ciò che i sistemi di watermarking possono ottenere con i moderni acceleratori di intelligenza artificiale.”