Caratteristiche “Amazon Elastic Inference

Aggiornamento importante

Grazie per l'interesse dimostrato per Amazon Elastic Inference. Amazon Elastic Inference non è più disponibile per i nuovi clienti. Puoi ottenere prestazioni migliori a costi inferiori per i tuoi carichi di lavoro di inferenza del machine learning utilizzando altre opzioni di accelerazione hardware come AWS Inferentia. Se attualmente utilizzi Amazon Elastic Inference, valuta la possibilità di migrare il tuo carico di lavoro verso queste alternative. Per ulteriori informazioni, visita la pagina Infrastruttura di AWS machine learning.

Amazon Elastic Inference consente di allegare la giusta quantità di accelerazione di inferenza basata su GPU a qualsiasi istanza Amazon EC2, Amazon SageMaker o attività ECS. Ciò significa che ora puoi scegliere l'istanza CPU più adatta alle esigenze complessive di elaborazione, memoria e archiviazione dell'applicazione, quindi configurare separatamente la quantità di accelerazione di inferenza basata su GPU di cui si ha bisogno.

Integrato con Amazon SageMaker, Amazon EC2 e Amazon ECS

Esistono diversi modi per eseguire carichi di lavoro di inferenza su AWS: distribuire il modello su Amazon SageMaker per un'esperienza completamente gestita o eseguirlo su istanze Amazon EC2 o attività Amazon ECS e gestirlo autonomamente. Amazon Elastic Inference è integrato per funzionare perfettamente con Amazon SageMaker, Amazon EC2 e Amazon ECS, consentendo di aggiungere l'accelerazione inferenziale in tutti gli scenari. È possibile specificare la quantità desiderata di accelerazione inferenziale quando si crea l'endpoint HTTPS del modello in Amazon SageMaker, quando si avvia l'istanza Amazon EC2 e quando si definisce l'attività Amazon ECS.

Supporto per TensorFlow, Apache MXNet e PyTorch

Amazon Elastic Inference è progettato per essere utilizzato con le versioni avanzate di AWS TensorFlow Serving, Apache MXNet e PyTorch. Questi miglioramenti consentono ai framework di rilevare automaticamente la presenza di acceleratori di inferenza, distribuire in modo ottimale le operazioni del modello tra la GPU dell'acceleratore e la CPU dell'istanza, e controllare in modo sicuro l'accesso agli acceleratori tramite le policy di AWS Identity and Access Management (IAM). Le librerie potenziate di TensorFlow Serving, MXNet e PyTorch vengono fornite automaticamente in Amazon SageMaker, nelle AMI di AWS Deep Learning e negli AWS Deep Learning Containers, pertanto non è necessario apportare alcuna modifica al codice per distribuire i modelli in produzione. Puoi anche scaricarli separatamente seguendo le istruzioni qui.

Supporto per il formato Open Neural Network Exchange (ONNX)

ONNX è un formato aperto che consente di addestrare un modello in un framework di deep learning e quindi trasferirlo a un altro per l'inferenza. Questo ti permette di sfruttare i punti di forza relativi di diversi framework. ONNX è integrato in PyTorch, MXNet, Chainer, Caffe2 e Microsoft Cognitive Toolkit, e ci sono connettori per molti altri framework tra cui TensorFlow. Per utilizzare i modelli ONNX con Amazon Elastic Inference, i modelli addestrati devono essere trasferiti alla versione ottimizzata AWS di Apache MXNet per l'implementazione della produzione.

Scelta di operazioni di precisione singole o miste

Gli acceleratori Amazon Elastic Inference supportano operazioni sia di precisione singola (32 bit in virgola mobile) che di precisione mista (16 bit in virgola mobile). La precisione singola fornisce un intervallo numerico estremamente ampio per rappresentare i parametri utilizzati dal modello. Tuttavia, la maggior parte dei modelli non ha realmente bisogno di questa precisione e il calcolo di numeri così grandi risulta in un’inutile perdita di prestazioni. Per evitare questo problema, le operazioni a precisione mista consentono di ridurre la gamma numerica della metà per ottenere prestazioni di inferenza fino a 8 volte maggiori.

Disponibili in più quantità di accelerazione

Amazon Elastic Inference è disponibile in più formati di throughput variabili da 1 a 32 trilioni di operazioni in virgola mobile al secondo (TFLOPS) per acceleratore, rendendolo efficiente per accelerare una vasta gamma di modelli di inferenza tra cui visione artificiale, elaborazione del linguaggio naturale e riconoscimento vocale. Rispetto alle istanze indipendenti di Amazon EC2 P3 che iniziano a 125 TFLOPS (la più piccola istanza di P3 disponibile), Amazon Elastic Inference inizia con un singolo TFLOPS per acceleratore. Questo consente di aumentare l'accelerazione di inferenza con incrementi più appropriati. È inoltre possibile selezionare da dimensioni dell'acceleratore più grandi, fino a 32 TFLOPS per acceleratore, per modelli più complessi.

Auto Scaling

Amazon Elastic Inference può far parte dello stesso gruppo di Amazon EC2 Auto Scaling che utilizzi per ridimensionare le istanze Amazon EC2, Amazon SageMaker e Amazon ECS. Quando EC2 Auto Scaling aggiunge più istanze EC2 per soddisfare le esigenze della tua applicazione, aumenta anche l'acceleratore collegato a ciascuna istanza. Allo stesso modo, quando l’Auto Scaling riduce le istanze EC2 se si verifica un calo della richiesta, viene ridotto anche l'acceleratore collegato per ciascuna istanza. In questo modo è facile scalare l'accelerazione di inferenza insieme alla capacità di calcolo della tua applicazione per soddisfare le esigenze della tua applicazione.