Amazon Elastic Inference consente di allegare la giusta quantità di accelerazione di inferenza basata su GPU a qualsiasi tipo di istanza Amazon EC2 o Amazon SageMaker. Ciò significa che ora puoi scegliere il tipo di istanza più adatto alle esigenze complessive di elaborazione, memoria e archiviazione dell'applicazione, quindi configurare separatamente la quantità di accelerazione di inferenza di cui si ha bisogno. 

Integrato con Amazon SageMaker e Amazon EC2

Esistono due modi per eseguire carichi di lavoro di inferenza su AWS: distribuire il modello su Amazon SageMaker per un'esperienza completamente gestita o eseguirlo su istanze Amazon EC2 e gestirlo autonomamente. Amazon Elastic Inference è integrato per funzionare perfettamente con Amazon SageMaker e Amazon EC2, consentendo di aggiungere l'accelerazione inferenziale in entrambi gli scenari. Con Amazon SageMaker, è possibile specificare la quantità desiderata di accelerazione inferenziale quando si crea l'endpoint HTTPS del modello e con Amazon EC2 anche quando si avvia l'istanza.

Supporto per TensorFlow e Apache MXNet

Amazon Elastic Inference è progettato per essere utilizzato con le versioni avanzate di AWS TensorFlow Serving e Apache MXNet. Questi miglioramenti consentono ai framework di rilevare automaticamente la presenza di acceleratori di inferenza, distribuire in modo ottimale le operazioni del modello tra la GPU dell'acceleratore e la CPU dell'istanza, e controllare in modo sicuro l'accesso agli acceleratori tramite le policy di AWS Identity and Access Management (IAM). Le librerie potenziate di TensorFlow Serving e MXNet vengono fornite automaticamente in Amazon SageMaker e nelle AMI di AWS Deep Learning, pertanto non è necessario apportare alcuna modifica al codice per distribuire i modelli in produzione. Puoi anche scaricarli separatamente seguendo le istruzioni qui.

Supporto per il formato Open Neural Network Exchange (ONNX)

ONNX è un formato aperto che consente di addestrare un modello in un framework di deep learning e quindi trasferirlo a un altro per l'inferenza. Questo ti permette di sfruttare i punti di forza relativi di diversi framework. Ad esempio, con ONNX è possibile beneficiare della flessibilità di PyTorch per creare e addestrare il modello, quindi trasferirlo su Apache MXNet in modo da poter eseguire in modo efficiente l'inferenza su vasta scala. ONNX è integrato in PyTorch, MXNet, Chainer, Caffe2 e Microsoft Cognitive Toolkit, e ci sono connettori per molti altri framework tra cui TensorFlow. Per utilizzare i modelli ONNX con Amazon Elastic Inference, i modelli addestrati devono essere trasferiti alla versione ottimizzata AWS di Apache MXNet per l'implementazione della produzione.

Scelta di operazioni di precisione singole o miste

Gli acceleratori Amazon Elastic Inference supportano operazioni sia di precisione singola (32 bit in virgola mobile) che di precisione mista (16 bit in virgola mobile). La precisione singola fornisce un intervallo numerico estremamente ampio per rappresentare i parametri utilizzati dal modello. Tuttavia, la maggior parte dei modelli non ha realmente bisogno di questa precisione e il calcolo di numeri così grandi risulta in un’inutile perdita di prestazioni. Per evitare questo problema, le operazioni a precisione mista consentono di ridurre la gamma numerica della metà per ottenere prestazioni di inferenza fino a 8 volte maggiori.

Disponibili in più quantità di accelerazione

Amazon Elastic Inference è disponibile in più formati di throughput variabili da 1 a 32 trilioni di operazioni in virgola mobile al secondo (TFLOPS) per acceleratore, rendendolo efficiente per accelerare una vasta gamma di modelli di inferenza tra cui visione artificiale, elaborazione del linguaggio naturale e riconoscimento vocale. Rispetto alle istanze indipendenti di Amazon EC2 P3 che iniziano a 125 TFLOPS (la più piccola istanza di P3 disponibile), Amazon Elastic Inference inizia con un singolo TFLOPS per acceleratore. Questo consente di aumentare l'accelerazione di inferenza con incrementi più appropriati. È inoltre possibile selezionare da dimensioni dell'acceleratore più grandi, fino a 32 TFLOPS per acceleratore, per modelli più complessi.

Auto Scaling

Amazon Elastic Inference può far parte dello stesso gruppo di Amazon EC2 Auto Scaling che utilizzi per ridimensionare le istanze Amazon EC2 e Amazon SageMaker. Quando EC2 Auto Scaling aggiunge più istanze EC2 per soddisfare le esigenze della tua applicazione, aumenta anche l'acceleratore collegato a ciascuna istanza. Allo stesso modo, quando l’Auto Scaling riduce le istanze EC2 se si verifica un calo della richiesta, viene ridotto anche l'acceleratore collegato per ciascuna istanza. In questo modo è facile scalare l'accelerazione di inferenza insieme alla capacità di calcolo della tua applicazione per soddisfare le esigenze della tua applicazione.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Ulteriori informazioni sui prezzi dei prodotti

Esamina i prezzi di Amazon Elastic Inference.

Ulteriori informazioni 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Inizia subito nella console

Inizia con Amazon Elastic Inference su Amazon SageMaker o Amazon EC2.

Accedi