Prodotti›
Machine learning›
AWS Inferentia

AWS Inferentia

Ottieni prestazioni elevate a costi più bassi in Amazon EC2 per l'inferenza dell'IA generativa e del deep learning

Nozioni di base sugli acceleratori AWS Inferentia che utilizzano AWS Neuron

Perché Inferentia?

Gli acceleratori AWS Inferentia sono progettati da AWS per fornire prestazioni elevate a costi più bassi in Amazon EC2 per le applicazioni di inferenza di deep learning (DL) e IA generativa.

L'acceleratore AWS Inferentia di prima generazione alimenta le istanze Inf1 di Amazon Elastic Compute Cloud (Amazon EC2), che offrono una velocità di trasmissione effettiva fino a 2,3 volte superiore e un costo per inferenza fino al 70% inferiore rispetto alle istanze Amazon EC2 paragonabili. Molti clienti, tra cui Finch AI, Sprinklr, Money Forward e Amazon Alexa, hanno adottato le istanze Inf1 e si sono resi conto dei vantaggi in termini di prestazioni e costi.

L’acceleratore AWS Inferentia2 offre una velocità di trasmissione effettiva fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto a Inferentia. Le istanze Amazon EC2 Inf2 basate su Inferentia2 sono ottimizzate per implementare modelli sempre più complessi, come modelli linguistici di grandi dimensioni (LLM) e modelli a diffusione latente su larga scala. Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 e supportano l'inferenza distribuita su scala con connettività ad altissima velocità tra gli acceleratori. Molti clienti, tra cui Leonardo.ai, Deutsche Telekom e Qualtrics, hanno adottato istanze Inf2 per le loro applicazioni di DL e IA generativa.

L'SDK di AWS Neuron aiuta gli sviluppatori a implementare i modelli sugli acceleratori AWS Inferentia e ad addestrarli sugli acceleratori AWS Trainium. Si integra in modo nativo con i framework più diffusi, come PyTorch e TensorFlow, in modo che tu possa continuare a utilizzare il codice e i flussi di lavoro esistenti ed eseguirli sugli acceleratori Inferentia.

Vantaggi di Inferentia

Ottimizzato per una velocità di trasmissione effettiva elevata e una bassa latenza

Ogni acceleratore Inferentia di prima generazione dispone di quattro NeuronCore di prima generazione con un massimo di 16 acceleratori Inferentia per ciascuna istanza Inf1 di EC2. Ogni acceleratore Inferentia2 dispone di due NeuronCore di seconda generazione con un massimo di 12 acceleratori Inferentia2 per ciascuna istanza Inf2 di EC2. Ogni acceleratore Inferentia2 supporta fino a 190 tera di operazioni in virgola mobile al secondo (TFLOPS) di prestazioni FP16. Inferentia di prima generazione ha 8 GB di memoria DDR4 per acceleratore e dispone anche di una grande quantità di memoria on-chip. Inferentia2 offre 32 GB di HBM per acceleratore, aumentando la memoria totale di 4 volte e la larghezza di banda della memoria di 10 volte rispetto a Inferentia.

Supporto nativo per framework ML

L'SDK AWS Neuron è integrato in modo nativo con framework di ML diffusi come PyTorch e TensorFlow. Con AWS Neuron, è possibile utilizzare questi framework per implementare in modo ottimale i modelli di DL su entrambi gli acceleratori AWS Inferentia e Neuron è progettato per ridurre al minimo le modifiche al codice ed eliminare i legami a soluzioni specifiche del fornitore. AWS Neuron ti aiuta a eseguire le applicazioni di inferenza per l'elaborazione del linguaggio naturale e la comprensione, la traduzione linguistica, il riepilogo dei testi, la generazione di video e immagini, il riconoscimento vocale, la personalizzazione, il rilevamento delle frodi e altro ancora con acceleratori Inferentia.

Ampia gamma di tipi di dati con lancio automatico

Inferentia di prima generazione supporta tipi di dati FP16, BF16 e INT8. Inferentia2 aggiunge un supporto aggiuntivo per FP32, TF32 e il nuovo tipo di dati FP8 configurabile (cFP8) per offrire agli sviluppatori una maggiore flessibilità, al fine di ottimizzare prestazioni e precisione. AWS Neuron acquisisce i modelli FP32 ad alta precisione e li converte automaticamente in tipi di dati a bassa precisione, ottimizzando la precisione e le prestazioni. Il lancio automatico riduce il time to market eliminando la necessità di riqualificare i prodotti di precisione inferiore.

Funzionalità DL all'avanguardia

Inferentia2 aggiunge ottimizzazioni hardware per dimensioni dinamiche di input e operatori personalizzati scritti in C++. Supporta inoltre l'arrotondamento stocastico, una modalità di arrotondamento probabilistico che consente prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.

Progettato per la sostenibilità

Le istanze Inf2 offrono fino al 50% di prestazioni/watt in più rispetto alle istanze Amazon EC2 paragonabili, poiché, insieme agli acceleratori Inferentia2 sottostanti, sono costruite appositamente per eseguire modelli di DL su scala. Le istanze Inf2 ti consentono di raggiungere i tuoi obiettivi di sostenibilità durante l'implementazione di modelli di dimensioni ultra-grandi.

Video

Dietro le quinte, guarda l'infrastruttura di IA generativa di Amazon

Presentazione delle istanze Amazon EC2 Inf2 basate su AWS Inferentia2

In che modo quattro clienti AWS hanno ridotto i costi del machine learning e favorito l'innovazione con AWS Inferentia

Risorse

Perfeziona e implementa i modelli Llama 2 in modo conveniente in Amazon SageMaker JumpStart con AWS Inferentia e AWS Trainium

Ottimizza Llama 2 utilizzando QLoRA e distribuiscilo su Amazon SageMaker con AWS Inferentia2

Massimizza le prestazioni di Stable Diffusion e riduci i costi di inferenza con AWS Inferentia2

Ottieni prestazioni elevate con il minor costo per l'inferenza di IA generativa utilizzando AWS Inferentia2 e AWS Trainium su Amazon SageMaker

ByteDance consente di risparmiare fino al 60% sui costi di inferenza riducendo la latenza e aumentando la velocità di trasmissione effettiva grazie ad AWS Inferentia

In che modo Amazon Search ha ridotto dell'85% i costi di inferenza ML con AWS Inferentia

Additional resources

Usa AWS Neuron e inizia a usare AWS Inferentia da TensorFlow, PyTorch o MXNet

Ulteriori informazioni

Additional resources

Roadmap della funzionalità AWS Neuron

Ulteriori informazioni

Nozioni di base su Inferentia

Inizia subito nella console

Esempi di inferenza/tutorial (Inf2/Trn1)

Ulteriori informazioni