AWS Inferentia
Gli acceleratori AWS Inferentia sono progettati da AWS per fornire prestazioni elevate a costi più bassi per le applicazioni di inferenza di deep learning (DL).
L'acceleratore AWS Inferentia di prima generazione alimenta le istanze Inf1 di Amazon Elastic Compute Cloud (Amazon EC2), che offrono una velocità di trasmissione effettiva fino a 2,3 volte superiore e un costo per inferenza fino al 70% inferiore rispetto alle istanze Amazon EC2 paragonabili. Molti clienti, tra cui Airbnb, Snap, Sprinklr, Money Forward e Amazon Alexa, hanno adottato le istanze Inf1 e si sono resi conto dei vantaggi in termini di prestazioni e costi.
L'acceleratore AWS Inferentia2 offre un notevole salto di qualità in termini di prestazioni e funzionalità rispetto alla prima generazione di AWS Inferentia. Inferentia2 offre una velocità di trasmissione effettiva fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto a Inferentia. Le istanze Inf2 di Amazon EC2 basate su Inferentia2 sono progettate per fornire prestazioni elevate al costo più basso in Amazon EC2 per le applicazioni di inferenza di DL e di IA generativa. Sono ottimizzate per implementare, su scala, modelli sempre più complessi, come i modelli linguistici di grandi dimensioni (LLM) e i trasformatori di visione. Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 e supportano l'inferenza distribuita su scala con connettività ad altissima velocità tra gli acceleratori. Ora puoi implementare in modo efficiente ed economico modelli con centinaia di miliardi di parametri su più acceleratori su istanze Inf2.
AWS Neuron è l'SDK che aiuta gli sviluppatori a implementare i modelli su entrambi gli acceleratori AWS Inferentia e a eseguire le applicazioni di inferenza per l'elaborazione del linguaggio naturale e la comprensione, la traduzione linguistica, il riepilogo del testo, la generazione di video e immagini, il riconoscimento vocale, la personalizzazione, il rilevamento delle frodi e altro ancora. Si integra in modo nativo con i framework di machine learning (ML) più diffusi, come PyTorch e TensorFlow, in modo che tu possa continuare a utilizzare il codice e i flussi di lavoro esistenti ed eseguirli sugli acceleratori Inferentia.
Vantaggi
Prestazioni e velocità di trasmissione effettiva elevate
Ogni acceleratore Inferentia di prima generazione dispone di quattro NeuronCore di prima generazione con un massimo di 16 acceleratori Inferentia per ciascuna istanza Inf1 di EC2. Ogni acceleratore Inferentia2 dispone di due NeuronCore di seconda generazione con un massimo di 12 acceleratori Inferentia2 per ciascuna istanza Inf2 di EC2. Inferentia2 offre una velocità di trasmissione effettiva fino a 4 volte superiore e prestazioni di calcolo 3 volte superiori rispetto a Inferentia. Ogni acceleratore Inferentia2 supporta fino a 190 tera di operazioni in virgola mobile al secondo (TFLOPS) di prestazioni FP16.
Bassa latenza con memoria a larghezza di banda elevata
Inferentia di prima generazione ha 8 GB di memoria DDR4 per acceleratore e dispone anche di una grande quantità di memoria on-chip. Inferentia2 offre 32 GB di HBM per acceleratore, aumentando la memoria totale di 4 volte e la larghezza di banda della memoria di 10 volte rispetto a Inferentia.
Supporto nativo per framework ML
L'SDK AWS Neuron è integrato in modo nativo con framework di ML diffusi come PyTorch e TensorFlow. Con AWS Neuron, è possibile utilizzare questi framework per implementare in modo ottimale i modelli di DL su entrambi gli acceleratori AWS Inferentia con modifiche minime al codice e senza legami con soluzioni specifiche del fornitore.
Ampia gamma di tipi di dati con lancio automatico
Inferentia di prima generazione supporta tipi di dati FP16, BF16 e INT8. Inferentia2 aggiunge un supporto aggiuntivo per FP32, TF32 e il nuovo tipo di dati FP8 configurabile (cFP8) per offrire agli sviluppatori una maggiore flessibilità, al fine di ottimizzare prestazioni e precisione. AWS Neuron acquisisce i modelli FP32 ad alta precisione e li converte automaticamente in tipi di dati a bassa precisione, ottimizzando la precisione e le prestazioni. Il lancio automatico riduce il time to market eliminando la necessità di riqualificare i prodotti di precisione inferiore.
Funzionalità DL all'avanguardia
Inferentia2 aggiunge ottimizzazioni hardware per dimensioni dinamiche di input e operatori personalizzati scritti in C++. Supporta inoltre l'arrotondamento stocastico, una modalità di arrotondamento probabilistico che consente prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.
Progettato per la sostenibilità
Le istanze Inf2 offrono fino al 50% di prestazioni/watt in più rispetto alle istanze Amazon EC2 paragonabili, poiché, insieme agli acceleratori Inferentia2 sottostanti, sono costruite appositamente per eseguire modelli di DL su scala. Le istanze Inf2 ti consentono di raggiungere i tuoi obiettivi di sostenibilità durante l'implementazione di modelli di dimensioni ultra-grandi.
SDK AWS Neuron
AWS Neuron è l'SDK che aiuta gli sviluppatori a implementare i modelli su entrambi gli acceleratori AWS Inferentia e ad addestrarli sull'acceleratore AWS Trainium. Si integra in modo nativo con i framework di ML più diffusi, come PyTorch e TensorFlow, in modo che tu possa continuare a utilizzare i flussi di lavoro esistenti ed eseguirli sugli acceleratori Inferentia con poche righe di codice.
AWS Trainium
AWS Trainium è un acceleratore di addestramento di DL progettato da AWS che offre addestramento di DL ad alte prestazioni e costi contenuti su AWS. Le istanze Trn1 di Amazon EC2, alimentate da AWS Trainium, offrono le massime prestazioni per l'addestramento del deep learning dei più diffusi modelli di elaborazione del linguaggio naturale su AWS. Le istanze Trn1 offrono fino al 50% di risparmio sui costi di addestramento rispetto a istanze Amazon EC2 paragonabili.
Testimonianze dei clienti

Qualtrics progetta e sviluppa software per la gestione delle esperienze.
"In Qualtrics, il nostro obiettivo è definire una tecnologia che colmi le lacune di esperienza per clienti, dipendenti, marchi e prodotti. A tal fine, stiamo sviluppando modelli di deep learning multi-task e multi-modali complessi per lanciare nuove funzionalità, come la classificazione dei testi, il tagging delle sequenze, l'analisi del discorso, l'estrazione di frasi chiave, l'estrazione di argomenti, il clustering e la comprensione delle conversazioni end-to-end. Con l'utilizzo di questi modelli più complessi in un numero maggiore di applicazioni, il volume dei dati non strutturati aumenta e abbiamo bisogno di soluzioni ottimizzate per l'inferenza con migliori prestazioni in grado di soddisfare tali richieste, come le istanze Inf2, per offrire esperienze soddisfacenti ai nostri clienti. Siamo entusiasti delle nuove istanze Inf2, perché non solo ci permettono di raggiungere una velocità di trasmissione effettiva più elevata, riducendo drasticamente la latenza, ma introducono anche funzionalità come l'inferenza distribuita e il supporto avanzato per la forma dinamica degli input, che ci aiutano a dimensionare per soddisfare le esigenze di implementazione mentre ci spingiamo verso modelli più grandi e complessi".
Aaron Colak, Head of Core Machine Learning, Qualtrics

Finch Computing è un'azienda di tecnologia del linguaggio naturale che fornisce applicazioni di intelligenza artificiale a clienti collegati a enti pubblici, servizi finanziari e integratori di dati.
"Per soddisfare le esigenze dei nostri clienti in termini di NLP in tempo reale, sviluppiamo modelli DL all'avanguardia che si adattano a grandi carichi di lavoro di produzione. Dobbiamo fornire transazioni a bassa latenza e raggiungere una velocità di trasmissione effettiva elevata per elaborare feed di dati globali. Abbiamo già migrato molti carichi di lavoro di produzione su istanze Inf1 e abbiamo ottenuto una riduzione dei costi dell'80% rispetto alle GPU. Ora stiamo sviluppando modelli più grandi e complessi che consentono di ottenere un significato più profondo e dettagliato dal testo scritto. Molti dei nostri clienti hanno bisogno di accedere a queste informazioni in tempo reale e le prestazioni delle istanze Inf2 ci aiutano a garantire una latenza inferiore e una velocità di trasmissione effettiva superiore rispetto alle istanze Inf1. Grazie ai miglioramenti delle prestazioni di Inf2 e alle nuove funzionalità di Inf2, come il supporto per le dimensioni dinamiche degli input, stiamo migliorando la nostra efficienza in termini di costi, migliorando l'esperienza dei clienti in tempo reale e aiutando i nostri clienti a ricavare nuove informazioni dai loro dati".
Franz Weckesser, Chief Architect, Finch Computing

"Avvisiamo su molti tipi di eventi in tutto il mondo in molte lingue, in diversi formati (immagini, video, audio, sensori di testo, combinazioni di tutti questi tipi) da centinaia di migliaia di fonti. L'ottimizzazione della velocità e dei costi, data tale scalabilità, è assolutamente fondamentale per la nostra attività. Con AWS Inferentia, abbiamo ridotto la latenza del modello e ottenuto una velocità di trasmissione effettiva per dollaro fino a 9 volte superiore. Questo ci ha permesso di aumentare la precisione dei modelli e ampliare le capacità della nostra piattaforma implementando modelli DL più sofisticati ed elaborando un volume di dati 5 volte superiore, mantenendo i costi sotto controllo".
Alex Jaimes, Chief Scientist and Senior Vice President of AI, Dataminr

Fondato nel 2008, Airbnb con sede a San Francisco è un marketplace di comunità con oltre 4 milioni di host che hanno accolto più di 900 milioni di ospiti in arrivo in quasi tutti i paesi del mondo.
"La Community Support Platform di Airbnb offre esperienze di servizio intelligenti, scalabili ed eccezionali alla nostra community di milioni di ospiti e host in tutto il mondo. Siamo costantemente alla ricerca di modi per migliorare le prestazioni dei nostri modelli di elaborazione del linguaggio naturale utilizzati dalle nostre applicazioni di chatbot di supporto. Con le istanze Inf1 di Amazon EC2 basate su AWS Inferentia, osserviamo un miglioramento di 2 volte della velocità di trasmissione effettiva rispetto alle istanze basate su GPU per i nostri modelli BERT basati su PyTorch. Non vediamo l'ora di sfruttare le istanze Inf1 per altri modelli e casi d'uso in futuro".
Bo Zeng, Engineering Manager, Airbnb

"Integriamo il machine learning (ML) in molti aspetti di Snapchat, ed esplorare le opportunità di innovazione in questo campo è una delle nostre massime priorità. Dopo avere sentito parlare di Inferentia, abbiamo iniziato a collaborare con AWS per adottare le istanze Inf1/Inferentia per aiutarci con la distribuzione del ML, anche sotto il profilo di costi e prestazioni. Siamo partiti dai nostri modelli di raccomandazione e progettiamo di adottare le istanze Inf1 per altri modelli in futuro".
Nima Khajehnouri, VP Engineering, Snap Inc.

"La piattaforma unificata per la gestione dell'esperienza cliente (Unified-CXM) di Sprinklr, guidata dall'intelligenza artificiale, permette alle aziende di raccogliere e tradurre i feedback in tempo reale dei clienti provenienti da canali multipli e trasformarli in informazioni dettagliate da utilizzare per le proprie operazioni: il risultato è una risoluzione dei problemi proattiva, uno sviluppo dei prodotti migliorato, un marketing dei contenuti più puntuale, una migliore assistenza al cliente e tanto altro. Con Amazon EC2 Inf1, siamo stati in grado di migliorare in maniera significativa le prestazioni di uno dei nostri modelli di elaborazione del linguaggio naturale (NLP), nonché di migliorare le prestazioni di uno dei nostri modelli di visione artificiale. Non vediamo l'ora di continuare a utilizzare Amazon EC2 Inf1, in modo da poter servire al meglio i nostri clienti in tutto il mondo".
Vasant Srinivasan, Senior Vice President of Product Engineering, Sprinklr

"Autodesk sta sviluppando la tecnologia cognitiva del nostro assistente virtuale basato su IA, Autodesk Virtual Agent (AVA), utilizzando Inferentia. AVA risponde a oltre 100.000 domande dei clienti ogni mese utilizzando tecniche di riconoscimento del linguaggio naturale (NLU) e deep learning per estrarre il contesto, l'intento e il significato delle richieste. Sfruttando Inferentia, siamo riusciti a ottenere una velocità di trasmissione effettiva di 4,9 volte superiore rispetto a G4dn per i nostri modelli di NLU, e progettiamo di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia."
Binghui Ouyang, Sr. Data Scientist, Autodesk
Servizi Amazon che utilizzano AWS Inferentia

Amazon Advertising aiuta le aziende di qualsiasi dimensione a connettersi con i clienti in ogni fase dell'esperienza di acquisto. Ogni giorno milioni di annunci, inclusi testi e immagini, vengono moderati, classificati e serviti per un'esperienza cliente ottimale.
"Per l'elaborazione dei nostri annunci testuali implementiamo modelli BERT basati su PyTorch a livello globale su istanze Inf1 basate su AWS Inferentia. Passando dalle GPU a Inferentia, siamo stati in grado di ridurre i nostri costi del 69% con prestazioni comparabili. Compilare e testare i nostri modelli per AWS Inferentia ha richiesto meno di tre settimane. L'utilizzo di Amazon SageMaker per implementare i nostri modelli sulle istanze Inf1 ha fatto sì che la nostra implementazione fosse scalabile e facile da gestire. Quando ho analizzato per la prima volta i modelli compilati, le prestazioni con AWS Inferentia sono state talmente impressionanti che ho dovuto rieseguire i benchmark per assicurarmi che fossero corretti! In futuro vogliamo migrare i nostri modelli di elaborazione degli annunci con immagini a Inferentia. Abbiamo già valutato una latenza inferiore del 30% e un risparmio sui costi del 71% rispetto a istanze comparabili basate su GPU per questi modelli."
Yashal Kanungo, Applied Scientist, Amazon Advertising
Leggi il blog sulle ultime novità »

"L'intelligenza basata su IA e ML di Amazon Alexa, con tecnologia AWS, è disponibile oggi su oltre 100 milioni di dispositivi e la nostra promessa ai clienti è che Alexa diventi sempre più intelligente, che ami conversare, che sia più proattiva e persino più gradevole. Rispettare questa promessa richiede miglioramenti continui nei tempi di risposta e nei costi dell'infrastruttura di ML, ed è per questo che siamo entusiasti di utilizzare Inf1 di Amazon EC2 per abbassare la latenza di inferenza e il costo per inferenza della sintesi vocale di Alexa. Con Inf1 di Amazon EC2, possiamo migliorare ulteriormente il servizio per le decine di milioni di clienti che utilizzano Alexa ogni mese".
Tom Taylor, Senior Vice President, Amazon Alexa
"Continuiamo a innovare per migliorare ulteriormente l'esperienza dei nostri clienti e per ridurre i costi delle infrastrutture. Spostando i nostri carichi di lavoro di web-based question answering (WBQA) dalle istanze P3 basate su GPU alle istanze Inf1 basate su AWS Inferentia, non solo abbiamo ridotto i costi di inferenza del 60%, ma abbiamo anche migliorato la latenza end-to-end di oltre il 40%, contribuendo a migliorare l'esperienza di D&R dei clienti con Alexa. L'utilizzo di Amazon SageMaker per il nostro modello basato su TensorFlow ha reso il processo di passaggio alle istanze Inf1 semplice e facile da gestire. Ora stiamo usando istanze Inf1 a livello globale per eseguire questi carichi di lavoro WBQA e stiamo ottimizzando le loro prestazioni per AWS Inferentia per ridurre ulteriormente i costi e la latenza".
Eric Lind, Software Development Engineer, Alexa AI

"Amazon Prime Video utilizza modelli ML di visione artificiale per analizzare la qualità video degli eventi dal vivo, al fine di garantire un'esperienza di visione ottimale per gli iscritti a Prime Video. Abbiamo distribuito i nostri modelli ML di classificazione delle immagini su istanze Inf1 EC2 e siamo riusciti a ottenere un miglioramento delle prestazioni di 4 volte e un risparmio fino al 40% sui costi. Stiamo ora cercando di sfruttare questi risparmi sui costi per innovare e costruire modelli avanzati in grado di rilevare difetti più complessi, come le lacune di sincronizzazione tra i file audio e video, per offrire un'esperienza di visione migliore agli iscritti a Prime Video".
Victor Antonino, Solutions Architect, Amazon Prime Video

"Amazon Rekognition è un'applicazione di analisi di video e immagini semplice e intuitiva che aiuta i clienti a identificare oggetti, persone, testi e attività. Amazon Rekognition richiede un'infrastruttura di deep learning ad alte prestazioni in grado di analizzare quotidianamente miliardi di immagini e video per i nostri consumatori. Con le istanze Inf1 basate su AWS Inferentia, l'esecuzione di modelli di Amazon Rekognition, come ad esempio la classificazione degli oggetti, ha riscontrato una latenza di 8 volte inferiore e una velocità di trasmissione effettiva di 2 volte maggiore rispetto all'esecuzione degli stessi modelli su GPU. Sulla base di questi riscontri, stiamo trasferendo Amazon Rekognition su Inf1, per consentire ai nostri clienti di ottenere risultati più precisi in un tempo inferiore".
Rajneesh Singh, Director, SW Engineering, Amazon Rekognition and Video
Blog e articoli
Patrick Moorhead, 13 maggio 2020
James Hamilton, 28 novembre 2018
Video

Ottieni l'accesso immediato al piano gratuito di AWS.