AWS Inferentia

Chip di inferenza di machine learning ad alte prestazioni, progettato appositamente da AWS

La domanda sul miglioramento del deep learning è in crescita rapida e coinvolge un’ampia gamma di applicazioni. Le applicazioni come le raccomandazioni di ricerca personalizzate, i prezzi dinamici o il servizio clienti automatizzato sono in crescita dal punto di vista dell’ottimizzazione e stanno diventando sempre più care per quanto riguarda la produzione. Mentre molte applicazioni inseriscono funzioni di machine learning, una crescente percentuale di carichi di lavoro cerca un’accelerazione, anche quelle che necessitano di prestazioni a bassa latenza e in tempo reale. Queste applicazioni traggono vantaggio dalle infrastrutture ottimizzate per eseguire gli algoritmi di machine learning.

La visione di AWS è quella di diffondere sempre di più il deep learning nel lavoro degli sviluppatori e di democratizzare l’accesso ad hardware innovativi resi disponibili in modelli di utilizzo low cost e con pagamento a consumo. AWS Inferentia è un grande passo e un grande impegno verso la realizzazione di questa visione. AWS Inferentia è progettato con lo scopo di fornire prestazioni ad alta interferenza nel cloud, diminuire il costo totale dell’interferenza e facilitare l’integrazione del machine learning come parte delle caratteristiche e delle funzionalità standard delle applicazioni. AWS Inferentia ha in dotazione il kit di sviluppo software (SDK) AWS Neuron che consiste in strumenti compiler, runtime e profilazione. Consente l’esecuzione di modelli di rete neurale complessi, creati e addestrati in framework diffusi come Tensorflow, PyTorch e MXNet, utilizzando AWS Inferentia basato sulle istanze Inf1 di Amazon EC2.

AWS Inferentia

Vantaggi

Prestazioni elevate

Ogni chip di AWS Inferentia supporta fino a 128 TOPS (miliardi di operazioni al secondo) di prestazioni a bassa potenza per abilitare più chip per istanza EC2. AWS Inferentia supporta tipi di dati FP16, BF16 e INT8. Inoltre, Inferentia può supportare modelli di training da 32 bit ed eseguirli alla velocità di un modello da 16 bit utilizzando BFloat16.

Latenza bassa

I chip AWS Inferentia dispongono di una grande quantità di memoria su chip che può essere utilizzata per la memorizzazione nella cache di modelli di grandi dimensioni, eliminando la necessità di archiviarli off-chip. Questo ha un enorme impatto nella diminuzione della latenza di interferenza perché i core di elaborazione di Inferentia (Neuron Cores) hanno un accesso ad alta velocità ai modelli e non sono limitati dalla larghezza di banda della memoria del chip off-chip.

Facilità d'uso

È facile distribuire agevolmente modelli addestrati di machine learning su istanze Inf1 di Amazon EC2 basate su AWS Inferentia con modifiche di codice minime. Per iniziare rapidamente, puoi utilizzare Amazon SageMaker, un servizio completamente gestito che ti consente di creare, addestrare e distribuire modelli di machine learning. Gli sviluppatori che preferiscono gestire i propri flussi di lavoro per creare e distribuire i propri modelli, possono utilizzare direttamente il kit AWS Neuron, integrato in modo nativo in framework diffusi tra cui TensorFlow, PyTorch e MXNet. AWS Neuron è anche preinstallato nelle AMI di deep learning di AWS e può anche essere installato nel tuo ambiente personalizzato senza un framework.

Istanze Inf1 di Amazon EC2 powered by AWS Inferentia

Le istanze Inf1 di Amazon EC2 offrono prestazioni elevate e l'inferenza di machine learning più economica nel cloud. Attraverso le istanze Inf1, i clienti possono eseguire applicazioni di inferenza di machine learning su larga scala come riconoscimento di immagini, riconoscimento vocale, elaborazione del linguaggio naturale, personalizzazione e rilevamento di frodi, al costo più basso disponibile nel cloud.

Ulteriori informazioni »

Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Inizia subito nella console

Inizia subito a usare il machine learning nella console AWS

Accedi