Amazon Elastic Inference

Riduzione dei costi di inferenza del machine learning fino al 75%

 Aggiornamento importante

Grazie per l'interesse dimostrato per Amazon Elastic Inference. Amazon Elastic Inference non è più disponibile per i nuovi clienti. Puoi ottenere prestazioni migliori a costi inferiori per i tuoi carichi di lavoro di inferenza di machine learning utilizzando altre opzioni di accelerazione hardware come AWS Inferentia. Se attualmente utilizzi Amazon Elastic Inference, valuta la possibilità di migrare il tuo carico di lavoro verso queste alternative. Per ulteriori informazioni, visita la pagina Infrastruttura di AWS machine learning.

Amazon Elastic Inference consente di collegare le accelerazioni a basso costo basate su GPU alle istanze Amazon EC2 e SageMaker o alle attività Amazon ECS, così da ridurre i costi di esecuzione dell'inferenza di deep learning fino al 75%. Amazon Elastic Inference supporta i modelli TensorFlow, Apache MXNet, PyTorch e ONNX.

Per inferenza si intende il processo predittivo effettuato attraverso un modello addestrato. Nelle applicazioni di deep learning, l'inferenza rappresenta fino al 90% dell'ammontare complessivo dei costi operativi per due motivi. Prima di tutto, di solito le istanze autonome GPU sono progettate per l'addestramento del modello, non per l'inferenza. Mentre i processi di addestramento in batch elaborano centinaia di campioni di dati in contemporanea, le attività di inferenza elaborano generalmente un singolo input in tempo reale, consumando così una piccola quantità di elaborazione della GPU. Questo fa sì che l'inferenza di GPU autonome sia inefficiente sui costi. D'altra parte, le istanze autonome CPU non sono specializzate in operazioni di matrice, ecco perché sono spesso troppo lente per le inferenze di deep learning. In secondo luogo, i vari modelli hanno diversi requisiti di memoria, CPU e GPU. L'ottimizzazione di una risorsa potrebbe comportare il sottoutilizzo di altre risorse e costi più elevati.

Amazon Elastic Inference consente di risolvere questi problemi attraverso il collegamento della giusta quantità di accelerazione di inferenza basata su GPU a qualsiasi tipo di istanza EC2 o SageMaker o attività ECS senza modifiche al codice. Con Amazon Elastic Inference, puoi scegliere in AWS tutte le istanze CPU più adatte alle esigenze complessive di calcolo e memoria dell'applicazione, quindi configurare separatamente la giusta quantità di accelerazione di inferenza basata su GPU, così da usare le risorse in modo più efficiente e ridurre i costi.

Vantaggi

Riduce i costi di inferenza fino al 75%

Amazon Elastic Inference ti consente di scegliere il tipo di istanza più adatto alle esigenze complessive di elaborazione e memoria dell'applicazione. È quindi possibile specificare in modo separato la quantità di accelerazione di inferenza di cui hai bisogno. Ciò riduce i costi di inferenza fino al 75% dal momento che l’inferenza non richiede di effettuare un provisioning eccessivo di elaborazione della GPU.

Ottieni esattamente ciò di cui hai bisogno

Amazon Elastic Inference può fornire un minimo di TFLOPS a precisione singola (trilioni di operazioni in virgola mobile al secondo) di accelerazione di inferenza o fino a 32 TFLOPS a precisione mista. Questo è un intervallo di calcolo delle inferenze molto più considerevole rispetto a quello offerto da un'istanza autonoma P3 di Amazon EC2 che prevede un limite di 1.000 TFLOPS. Ad esempio, un semplice modello di elaborazione del linguaggio potrebbe richiedere solo un TFLOPS per l’esecuzione dell'inferenza, mentre un modello sofisticato di visione artificiale potrebbe aver bisogno fino a 32 TFLOPS.

Rispondi ai cambiamenti della domanda

I gruppi di Amazon EC2 Auto Scaling consentono di ricalibrare in modo semplice la quantità di accelerazione di inferenza in entrambe le direzioni e di soddisfare le esigenze dell'applicazione senza necessità di provisioning eccessivo. Quando il servizio EC2 Auto Scaling aumenta le istanze EC2 per soddisfare la crescente domanda, ricalibra in modo automatico anche l'acceleratore collegato per ciascuna istanza. Allo stesso modo, quando le riduce in caso di diminuzione della domanda, ridimensiona automaticamente l'acceleratore collegato per ciascuna istanza. Questo ti consente di pagare solo per l’uso e consumo effettivi.

Supporto per i framework più utilizzati

Amazon Elastic Inference offre supporto per i modelli TensorFlow e Apache MXNet con framework aggiuntivi disponibili a breve.

Blog: Amazon Elastic Inference – Accelerazione di inferenza basata su GPU
28 novembre 2018