- Amazon EC2›
- Tipi di istanza›
- Istanze Inf2
Istanze Inf2 di Amazon EC2
Prestazioni elevate a costi più bassi in Amazon EC2 per l'inferenza dell'IA generativa
Perché scegliere le istanze Amazon EC2 Inf2?
Le istanze Inf2 di Amazon Elastic Compute Cloud (Amazon EC2) sono create appositamente per l'inferenza di deep learning (DL). Offrono prestazioni elevate al costo più basso in Amazon EC2 per modelli di intelligenza artificiale (IA) generativa, inclusi modelli di linguaggio di grandi dimensioni (LLM) e transformer di visione. Puoi utilizzare le istanze Inf2 per eseguire le applicazioni di inferenza per il riepilogo del testo, la generazione di codice, la generazione di video e immagini, il riconoscimento vocale, la personalizzazione, il rilevamento di frodi e altro ancora.
Le istanze Inf2 sono alimentate da AWS Inferentia2, il chip AWS Inferentia di seconda generazione. Le istanze Inf2 migliorano le prestazioni di Inf1 offrendo prestazioni di elaborazione 3 volte superiori, una memoria di accelerazione totale 4 volte più grande, una velocità di trasmissione effettiva fino a 4 volte superiore e una latenza fino a 10 volte inferiore. Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 e supportano l'inferenza distribuita su scala con connettività ad altissima velocità tra i chip Inferentia. Ora puoi implementare in modo efficiente ed economico modelli con centinaia di miliardi di parametri su più chip su istanze Inf2.
L'SDK di AWS Neuron aiuta gli sviluppatori a implementare i modelli sui chip AWS Inferentia e ad addestrarli sui chip AWS Trainium. Si integra in modo nativo con i framework come PyTorch e TensorFlow, in modo che sia possibile continuare a utilizzare i flussi di lavoro e il codice delle applicazioni esistenti ed eseguirli sulle istanze Inf2.
Vantaggi
Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 a supportare l'inferenza distribuita su larga scala. Ora puoi distribuire in modo efficiente i modelli con centinaia di miliardi di parametri su più chip Inferentia su istanze Inf2, utilizzando la connettività ad altissima velocità tra i chip.
Le istanze Inf2 sono progettate per offrire prestazioni elevate al minor costo in Amazon EC2 per le implementazioni DL. Offrono un throughput fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto alle istanze Inf1 di Amazon EC2. Le istanze Inf2 offrono un rapporto tra prestazioni e prezzo superiore fino al 40% rispetto ad altre istanze Amazon EC2 comparabili.
Usa l'SDK AWS Neuron per estrarre le prestazioni complete delle istanze Inf2. Con Neuron, puoi utilizzare i tuoi framework esistenti come PyTorch e TensorFlow e ottenere prestazioni ottimizzate fin dall'inizio per i modelli nei repository più diffusi come Hugging Face. Neuron supporta le integrazioni di runtime con strumenti di servizio come TorchServe e TensorFlow Serving. Inoltre, aiuta a ottimizzare le prestazioni con profili integrati e strumenti di debug come Neuron-Top e si integra in strumenti di visualizzazione più diffusi come TensorBoard.
Le istanze Inf2 offrono un rapporto prestazioni/watt superiore fino al 50% rispetto ad altre istanze Amazon EC2 comparabili. Queste istanze e i chip Inferentia2 sottostanti utilizzano processi avanzati e ottimizzazioni hardware e software per offrire un'elevata efficienza energetica durante l'esecuzione di modelli DL su larga scala. Utilizza le istanze Inf2 per raggiungere i tuoi obiettivi di sostenibilità durante l'implementazione di modelli di dimensioni ultra-grandi.
Caratteristiche
Le istanze Inf2 sono alimentate da un massimo di 12 chip AWS Inferentia2 connessi con NeuronLink ad altissima velocità per comunicazioni collettive semplificate. Offrono fino a 2,3 petaflop di potenza di calcolo, throughput fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto alle istanze Inf1.
Per adattarsi ai modelli DL di grandi dimensioni, le istanze Inf2 offrono fino a 384 GB di memoria acceleratrice condivisa (32 GB HBM in ogni chip Inferentia2, 4 volte maggiore dell'Inferentia di prima generazione) con 9,8 TB/s di larghezza di banda di memoria totale (10 volte più veloce rispetto a Inferentia di prima generazione).
Per una comunicazione rapida tra i chip Inferentia2, le istanze Inf2 supportano 192 GB/s di NeuronLink, un'interconnessione ad altissima velocità e non bloccante. Inf2 è l'unica istanza ottimizzata per l'inferenza a offrire questa interconnessione, una funzionalità disponibile solo nelle istanze di formazione più costose. Per i modelli di grandi dimensioni che non rientrano in un singolo chip, i dati fluiscono direttamente tra i chip con NeuronLink, bypassando completamente la CPU. Con NeuronLink, Inf2 supporta un'inferenza distribuita più rapida e migliora il throughput e la latenza.
Inferentia2 supporta FP32, TF32, BF16, FP16, UINT8 e il nuovo tipo di dati configurabile FP8 (cFP8). AWS Neuron può acquisire i modelli FP32 ed FP16 ad alta precisione e li trasmette automaticamente a tipi di dati a bassa precisione, ottimizzando al contempo precisione e prestazioni. La trasmissione automatica (autocasting) riduce i tempi di commercializzazione eliminando la necessità di riqualificazione a bassa precisione e consentendo un'inferenza a prestazioni più elevate con tipi di dati più piccoli.
Per supportare la rapida innovazione DL, le istanze Inf2 presentano diverse novità che le rendono flessibili ed estensibili per implementare modelli DL in continua evoluzione. Le istanze Inf2 dispongono di ottimizzazioni hardware e supporto software per forme di input dinamiche. Per consentire il supporto di nuovi operatori in futuro, supportano operatori personalizzati scritti in C++. Supportano inoltre l'arrotondamento stocastico, un metodo di arrotondamento probabilistico per ottenere prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.
Dettagli prodotto
|
Instance Size
|
Inferentia2 Chips
|
Accelerator Memory (GB)
|
vCPU
|
Memory (GiB)
|
Local Storage
|
Inter-Chip Interconnect
|
Network Bandwidth (Gbps)
|
EBS Bandwidth (Gbps)
|
On-Demand Price
|
1-Year Reserved Instance
|
3-Year Reserved Instance
|
|---|---|---|---|---|---|---|---|---|---|---|---|
|
inf2.xlarge
|
1
|
32
|
4
|
16
|
Solo EBS
|
N/D
|
Fino a 15
|
Fino a 10
|
0,76 USD
|
0,45 USD
|
0,30 USD
|
|
inf2.8xlarge
|
1
|
32
|
32
|
128
|
Solo EBS
|
N/D
|
Fino a 25
|
10
|
1,97 USD
|
1,81 USD
|
0,79 USD
|
|
inf2.24xlarge
|
6
|
192
|
96
|
384
|
Solo EBS
|
Sì
|
50
|
30
|
6,49 USD
|
3,89 USD
|
2,60 USD
|
|
inf2.48xlarge
|
12
|
384
|
192
|
768
|
Solo EBS
|
Sì
|
100
|
60
|
12,98 USD
|
7,79 USD
|
5,19 USD
|
Testimonianze dei partner e dei clienti
Ecco alcuni esempi di come clienti e partner hanno raggiunto i loro obiettivi aziendali con le istanze Amazon EC2 Inf2.
Leonardo.ai
«Il nostro team di Leonardo sfrutta l'intelligenza artificiale generativa per consentire ai professionisti e agli appassionati creativi di produrre risorse visive con qualità, velocità e coerenza stilistica senza pari. Il rapporto prezzo/prestazioni di AWS Inf2 Utilizzando AWS Inf2 siamo in grado di ridurre i nostri costi dell'80%, senza sacrificare le prestazioni, cambiando radicalmente la proposta di valore che possiamo offrire ai clienti, abilitando le nostre funzionalità più avanzate a un prezzo più accessibile. Inoltre, allevia le preoccupazioni relative ai costi e alla disponibilità della capacità per i nostri servizi di intelligenza artificiale ausiliari, che sono sempre più importanti man mano che cresciamo e dimensioniamo. È una tecnologia abilitante fondamentale per noi mentre continuiamo a superare i limiti di ciò che è possibile con l'intelligenza artificiale generativa, consentendo una nuova era di creatività e potenza espressiva per i nostri utenti. «
Pete Werner, Head of AI presso Leonardo.Ai
Pista
«In Runway, la nostra suite di AI Magic Tools consente ai nostri utenti di generare e modificare contenuti come mai prima d'ora. Stiamo costantemente superando i limiti di ciò che è possibile fare con la creazione di contenuti basata sull'intelligenza artificiale e, man mano che i nostri modelli di intelligenza artificiale diventano più complessi, i costi di infrastruttura alla base dell'esecuzione di questi modelli su larga scala possono diventare costosi. Grazie alla nostra collaborazione con le istanze Inf2 di Amazon EC2 basate su AWS Inferentia, siamo in grado di eseguire alcuni dei nostri modelli con una velocità di trasmissione effettiva fino a 2 volte superiore rispetto a istanze simili basate su GPU. Questa inferenza ad alte prestazioni e a basso costo ci consente di introdurre più funzionalità, implementare modelli più complessi e, in definitiva, offrire un'esperienza migliore per i milioni di creatori che utilizzano Runway. «
Cristóbal Valenzuela, cofondatore e CEO presso Runway
Qualtrics
Qualtrics progetta e sviluppa software per la gestione delle esperienze.
«In Qualtrics, il nostro obiettivo è creare tecnologie che colmino le lacune di esperienza per clienti, dipendenti, marchi e prodotti. A tal fine, stiamo sviluppando modelli di deep learning multi-task e multi-modali complessi per lanciare nuove funzionalità, come la classificazione dei testi, il tagging delle sequenze, l'analisi del discorso, l'estrazione di frasi chiave, l'estrazione di argomenti, il clustering e la comprensione delle conversazioni end-to-end. Con l'utilizzo di questi modelli più complessi in un numero maggiore di applicazioni, il volume dei dati non strutturati aumenta e abbiamo bisogno di soluzioni ottimizzate per l'inferenza con migliori prestazioni in grado di soddisfare tali richieste, come le istanze Inf2, per offrire esperienze soddisfacenti ai nostri clienti. Siamo entusiasti delle nuove istanze Inf2 perché non solo ci consentiranno di ottenere throughput più elevati, riducendo drasticamente la latenza, ma introdurranno anche funzionalità come l'inferenza distribuita e il supporto dinamico avanzato della forma di input, che ci aiuteranno a scalare per soddisfare le esigenze di implementazione man mano che ci spostiamo verso modelli di grandi dimensioni più grandi e complessi. «
Aaron Colak, Head of Core Machine Learning presso Qualtrics
Finch Computing
Finch Computing è un'azienda di tecnologia del linguaggio naturale che fornisce applicazioni di intelligenza artificiale a clienti collegati a enti pubblici, servizi finanziari e integratori di dati.
«Per soddisfare le esigenze dei nostri clienti per l'elaborazione del linguaggio naturale in tempo reale, sviluppiamo modelli DL all'avanguardia che si adattano a grandi carichi di lavoro di produzione. Dobbiamo fornire transazioni a bassa latenza e raggiungere una velocità di trasmissione effettiva elevata per elaborare feed di dati globali. Abbiamo già migrato molti carichi di lavoro di produzione su istanze Inf1 e abbiamo ottenuto una riduzione dei costi dell'80% rispetto alle GPU. Ora stiamo sviluppando modelli più grandi e complessi che consentono di ottenere un significato più profondo e dettagliato dal testo scritto. Molti dei nostri clienti hanno bisogno di accedere a queste informazioni in tempo reale e le prestazioni delle istanze Inf2 ci aiutano a garantire una latenza inferiore e una velocità di trasmissione effettiva superiore rispetto alle istanze Inf1. Con i miglioramenti delle prestazioni di Inf2 e le nuove funzionalità Inf2, come il supporto per dimensioni di input dinamiche, stiamo migliorando la nostra efficienza in termini di costi, elevando l'esperienza del cliente in tempo reale e aiutando i nostri clienti a raccogliere nuove informazioni dai loro dati. «
Franz Weckesser, Chief Architect presso Finch Computing
Money Forward Inc.
Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria aperta ed equa. Nell'ambito di tale piattaforma, HiTTO Inc., un'azienda del gruppo Money Forward, offre un servizio di chatbot IA, che utilizza modelli di elaborazione del linguaggio naturale (NLP) su misura per gestire le diverse esigenze dei clienti aziendali.
«Abbiamo lanciato un servizio di chatbot AI su larga scala sulle istanze Amazon EC2 Inf1 e ridotto la nostra latenza di inferenza del 97% rispetto a istanze simili basate su GPU, riducendo al contempo i costi. Siamo stati molto lieti di vedere ulteriori miglioramenti delle prestazioni nei risultati dei nostri test iniziali sulle istanze Inf2 di Amazon EC2. Utilizzando lo stesso modello NLP personalizzato, AWS Inf2 è riuscito a ridurre ulteriormente la latenza di 10 volte rispetto a Inf1. Mentre passiamo a modelli di parametri multimiliardari più grandi, Inf2 ci dà la certezza di poter continuare a fornire ai nostri clienti un'esperienza utente end-to-end superiore. «
Takuya Nakade, CTO presso Money Forward Inc.
Lettura del file
«In Fileread.ai, stiamo sviluppando soluzioni per rendere l'interazione con i tuoi documenti semplice come porre loro domande, consentendo agli utenti di trovare ciò che cercano tra tutti i loro documenti e di ottenere le informazioni giuste più velocemente. Da quando siamo passati alla nuova istanza Inf2 di EC2, abbiamo visto un miglioramento significativo nelle nostre capacità di inferenza NLP. I soli risparmi sui costi sono stati un punto di svolta per noi, consentendoci di allocare le risorse in modo più efficiente senza sacrificare la qualità. Abbiamo ridotto la latenza di inferenza del 33% e aumentato la velocità di trasmissione effettiva del 50%, soddisfacendo i nostri clienti con tempi di consegna più rapidi. Il nostro team è rimasto sbalordito dalla velocità e dalle prestazioni di Inf2 rispetto alle vecchie istanze G5, ed è chiaro che questo è il futuro dell'implementazione dei modelli NLP»
Daniel Hu, CEO presso Fileread
Yaraku
«In Yaraku, la nostra missione è costruire l'infrastruttura che aiuti le persone a comunicare attraverso le barriere linguistiche. Il nostro prodotto di punta, YarakuZen, consente a chiunque, dai traduttori professionisti alle persone monolingue, di tradurre e modificare testi e documenti con sicurezza. Per supportare questo processo, offriamo una vasta gamma di strumenti sofisticati basati su modelli di deep learning, che coprono attività come traduzione, allineamento di parole bitext, segmentazione delle frasi, modellazione linguistica e molte altre. Grazie alle istanze Inf1, siamo riusciti a velocizzare i nostri servizi per soddisfare la crescente domanda riducendo al contempo i costi di inferenza di oltre il 50% rispetto alle istanze basate su GPU. Stiamo ora procedendo allo sviluppo di modelli più grandi di nuova generazione che richiederanno le funzionalità avanzate delle istanze Inf2 per soddisfare la domanda mantenendo una bassa latenza. Con Inf2, saremo in grado di scalare i nostri modelli di 10 volte mantenendo una produttività simile, consentendoci di offrire livelli di qualità ancora più elevati ai nostri clienti. «
Giovanni Giacomo, NLP Lead presso Yaraku
Hugging Face
«La missione di Hugging Face è democratizzare un buon ML per aiutare gli sviluppatori di ML in tutto il mondo a risolvere i problemi del mondo reale. E la chiave per farlo è garantire che i modelli più recenti e migliori vengano eseguiti nel modo più rapido ed efficiente possibile sui migliori chip ML del cloud. Siamo incredibilmente entusiasti del potenziale che Inferentia2 diventi il nuovo modo standard per implementare modelli di IA generativa su larga scala. Con Inf1, abbiamo registrato una riduzione dei costi fino al 70% rispetto alle tradizionali istanze basate su GPU e con Inf2 abbiamo riscontrato una latenza fino a 8 volte inferiore per i Transformers simili a BERT rispetto a Inferentia1. Con Inferentia2, la nostra community sarà in grado di scalare facilmente queste prestazioni agli LLM con una scala di parametri di oltre 100B e anche ai più recenti modelli di diffusione e visione artificiale. «
PyTorch
«PyTorch accelera il percorso dalla prototipazione di ricerca alle implementazioni di produzione per gli sviluppatori di ML. Abbiamo collaborato con il team AWS per fornire supporto PyTorch nativo per le nuove istanze Amazon EC2 Inf2 basate su AWS Inferentia2. Poiché sempre più membri della nostra community cercano di implementare modelli di IA generativa di grandi dimensioni, siamo entusiasti di collaborare con il team AWS per ottimizzare l'inferenza distribuita sulle istanze Inf2 con connettività NeuronLink ad alta velocità tra i chip. Con Inf2, gli sviluppatori che utilizzano PyTorch possono ora implementare facilmente LLM e modelli di trasformatori di visione di grandi dimensioni. Inoltre, le istanze Inf2 offrono altre funzionalità innovative agli sviluppatori PyTorch, tra cui tipi di dati efficienti, forme dinamiche, operatori personalizzati e arrotondamento stocastico ottimizzato per l'hardware, che le rendono adatte per un'ampia adozione da parte della comunità PyTorch. «
Nextira
«La sfida storica con gli LLM, e più in generale con le applicazioni di intelligenza artificiale generativa di livello aziendale, sono i costi associati alla formazione e all'esecuzione di modelli DL ad alte prestazioni. Oltre ad AWS Trainium, AWS Inferentia2 rimuove i compromessi finanziari che i nostri clienti fanno quando richiedono una formazione ad alte prestazioni. Ora, i nostri clienti che cercano vantaggi nella formazione e nell'inferenza possono ottenere risultati migliori spendendo meno denaro. Trainium e Inferentia accelerano la scalabilità per soddisfare anche i requisiti DL più esigenti per le aziende più grandi di oggi. Molti clienti di Nextira che eseguono grandi carichi di lavoro di intelligenza artificiale trarranno vantaggio direttamente da questi nuovi chipset, aumentando l'efficienza in termini di risparmio di costi e prestazioni e portando a risultati più rapidi nel loro mercato. «
Jason Cutrer, fondatore e CEO presso Nextira
Amazon CodeWhisperer
Amazon CodeWhisperer è un complemento di codifica IA che genera consigli di codice a riga singola o completa in tempo reale nel tuo ambiente di sviluppo integrato (IDE) per aiutarti a creare rapidamente software.
«Con CodeWhisperer, stiamo migliorando la produttività degli sviluppatori di software fornendo consigli sul codice utilizzando modelli di intelligenza artificiale generativa. Per sviluppare raccomandazioni di codice altamente efficaci, abbiamo adattato la nostra rete DL a miliardi di parametri. I nostri clienti hanno bisogno di consigli sul codice in tempo reale durante la digitazione, quindi le risposte a bassa latenza sono fondamentali. I modelli di intelligenza artificiale generativa di grandi dimensioni richiedono un'elaborazione ad alte prestazioni per fornire tempi di risposta in una frazione di secondo. Con Inf2, offriamo la stessa latenza dell'esecuzione di CodeWhisperer sull'addestramento di istanze GPU ottimizzate per sequenze di input e output di grandi dimensioni. Pertanto, le istanze Inf2 ci aiutano a risparmiare costi ed energia offrendo al contempo la migliore esperienza possibile per gli sviluppatori. «
Doug Seven, General Manager presso Amazon CodeWhisperer
Ricerca Amazon
Il motore di ricerca di prodotti di Amazon indicizza miliardi di prodotti, soddisfa ogni giorno miliardi di domande dei clienti ed è uno dei servizi più utilizzati al mondo.
«Sono davvero entusiasta del lancio di Inf2 GA. Le prestazioni superiori di Inf2, insieme alla sua capacità di gestire modelli più grandi con miliardi di parametri, lo rendono la scelta perfetta per i nostri servizi e ci consentono di sbloccare nuove possibilità in termini di complessità e precisione dei modelli. Con la notevole velocità e l'efficienza in termini di costi offerte da Inf2, l'integrazione nell'infrastruttura di servizio di Amazon Search può aiutarci a soddisfare le crescenti richieste dei nostri clienti. Stiamo pianificando di potenziare le nostre nuove esperienze di acquisto utilizzando LLM generativi utilizzando Inf2. «
Trishul Chilimbi, VP presso Amazon Search
Nozioni di base
Distribuisci modelli su istanze Inf2 più facilmente utilizzando Amazon SageMaker per ridurre significativamente i costi di distribuzione dei modelli ML e aumentare le prestazioni senza la necessità di gestire l'infrastruttura. SageMaker è un servizio completamente gestito e si integra con gli strumenti MLOps. Pertanto, è possibile scalare l'implementazione dei modelli, gestire i modelli in modo più efficace in produzione e ridurre il carico operativo.
AWS Deep Learning AMI (DLAMI) fornisce ai professionisti e agli esperti di ML l'infrastruttura e gli strumenti necessari per velocizzare i processi di deep learning nel cloud, su qualsiasi scala. I driver AWS Neuron sono preconfigurati in DLAMI per distribuire i modelli di deep learning in modo ottimale sulle istanze Inf2.
Adesso puoi implementare istanze Inf2 in Amazon Elastic Kubernetes Service (Amazon EKS), il servizio Kubernetes completamente gestito, e in Amazon Elastic Container Service (Amazon ECS), il servizio di orchestrazione di container completamente gestito. Neuron è disponibile anche preinstallato in Container AWS per il Deep Learning. Per saperne di più sull'esecuzione di container sulle istanze Inf2, consulta i tutorial sui container Neuron.