Amazon Elastic Inference

Riduzione dei costi di inferenza del machine learning fino al 75%

Amazon Elastic Inference consente di collegare le accelerazioni a basso costo basate su GPU alle istanze Amazon EC2 e SageMaker o alle attività Amazon ECS, consentendoti di ridurre i costi di esecuzione dell'inferenza di deep learning fino al 75%. Amazon Elastic Inference supporta i modelli TensorFlow, Apache MXNet, PyTorch e ONNX.

Per inferenza si intende il processo predittivo effettuato attraverso un modello addestrato. Nelle applicazioni di deep learning, l'inferenza rappresenta fino al 90% dell'ammontare complessivo dei costi operativi per due motivi. Prima di tutto, di solito le istanze autonome GPU sono progettate per l'addestramento del modello, non per l'inferenza. Mentre i processi di addestramento in batch elaborano centinaia di campioni di dati in contemporanea, le attività di inferenza elaborano generalmente un singolo input in tempo reale, consumando così una piccola quantità di elaborazione della GPU. Questo fa sì che l'inferenza di GPU autonome sia inefficiente sui costi. D'altra parte, le istanze autonome CPU non sono specializzate in operazioni di matrice, ecco perché sono spesso troppo lente per le inferenze di deep learning. In secondo luogo, i vari modelli hanno diversi requisiti di memoria, CPU e GPU. L'ottimizzazione di una risorsa potrebbe comportare il sottoutilizzo di altre risorse e costi più elevati.

Amazon Elastic Inference ti consente di risolvere questi problemi tramite il collegamento della giusta quantità di accelerazione di inferenza basata su GPU a qualsiasi tipo di istanza EC2 o SageMaker o attività ECS senza modifiche al codice. Con Amazon Elastic Inference, è possibile scegliere in AWS tutte le istanze CPU più adatte alle esigenze complessive di elaborazione e memoria dell'applicazione, quindi configurare separatamente la giusta quantità di accelerazione inferenziale basata su GPU, per permetterti di utilizzare le risorse in maniera più efficiente e ridurre i costi.

Presentazione di Amazon Elastic Inference

Vantaggi

Riduce i costi di inferenza fino al 75%

Amazon Elastic Inference ti consente di scegliere il tipo di istanza più adatto alle esigenze complessive di elaborazione e memoria dell'applicazione. È quindi possibile specificare in modo separato la quantità di accelerazione di inferenza di cui hai bisogno. Ciò riduce i costi di inferenza fino al 75% dal momento che l’inferenza non richiede di effettuare un provisioning eccessivo di elaborazione della GPU.

Ottieni esattamente ciò di cui hai bisogno

Amazon Elastic Inference può fornire un minimo di TFLOPS a precisione singola (trilioni di operazioni in virgola mobile al secondo) di accelerazione di inferenza o fino a 32 TFLOPS a precisione mista. Questo è un intervallo di calcolo delle inferenze molto più considerevole rispetto a quello offerto da un'istanza autonoma P3 di Amazon EC2 che prevede un limite di 1.000 TFLOPS. Ad esempio, un semplice modello di elaborazione del linguaggio potrebbe richiedere solo un TFLOPS per l’esecuzione dell'inferenza, mentre un modello sofisticato di visione artificiale potrebbe aver bisogno fino a 32 TFLOPS.

Rispondi ai cambiamenti della domanda

I gruppi di Amazon EC2 Auto Scaling consentono di ricalibrare in modo semplice la quantità di accelerazione di inferenza in entrambe le direzioni e di soddisfare le esigenze dell'applicazione senza necessità di provisioning eccessivo. Quando il servizio EC2 Auto Scaling aumenta le istanze EC2 per soddisfare la crescente domanda, ricalibra in modo automatico anche l'acceleratore collegato per ciascuna istanza. Allo stesso modo, quando le riduce in caso di diminuzione della domanda, ridimensiona automaticamente l'acceleratore collegato per ciascuna istanza. Questo ti consente di pagare solo per l’uso e consumo effettivi.

Supporto per i framework più popolari

Amazon Elastic Inference offre supporto per i modelli TensorFlow e Apache MXNet con framework aggiuntivi disponibili a breve.

tensorflow_logo_200px
mxnet_150x50
logo-pytorch
Blog: Amazon Elastic Inference – Accelerazione di inferenza basata su GPU
28 novembre 2018
 
Product-Page_Standard-Icons_01_Product-Features_SqInk
Scopri le caratteristiche del prodotto

Ulteriori informazioni sulle caratteristiche di Amazon Elastic Inference.

Ulteriori informazioni 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Inizia subito nella console

Inizia subito con Amazon Elastic Inference su Amazon SageMaker o Amazon EC2.

Accedi