Domande frequenti su Amazon Elastic Inference

Domande generali

D: Perché Amazon incoraggia i clienti a spostare i carichi di lavoro da Amazon Elastic Inference (EI) a nuove opzioni di accelerazione hardware come AWS Inferentia?

I clienti ottengono prestazioni migliori a un prezzo molto migliore rispetto ad Amazon EI con nuove opzioni di accelerazione hardware come AWS Inferentia per i loro carichi di lavoro di inferenza. AWS Inferentia è progettato allo scopo di fornire un'inferenza ad alte prestazioni nel cloud, diminuire il costo totale dell'inferenza e facilitare l'integrazione del machine learning da parte degli sviluppatori nelle rispettive applicazioni aziendali. Per consentire ai clienti di beneficiare di questi acceleratori hardware di nuova generazione, non aggiungeremo nuovi clienti ad Amazon EI dopo il 15 aprile 2023.

D: Quali servizi AWS sono interessati dalla decisione di interrompere l'onboarding di nuovi clienti su Amazon Elastic Inference (EI)?

Questo annuncio riguarderà gli acceleratori Amazon EI collegati a qualsiasi istanza di Amazon EC2, Amazon SageMaker o Amazon Elastic Container Service (ECS). In Amazon SageMaker, questo vale sia per gli endpoint che per i kernel dei notebook che utilizzano gli acceleratori Amazon EI.

D: Sarò in grado di creare un nuovo acceleratore Amazon Elastic Inference (EI) dopo il 15 aprile 2023?

No, se sei un nuovo cliente e non hai utilizzato Amazon EI negli ultimi 30 giorni, non potrai creare una nuova istanza Amazon EI nel tuo account AWS dopo il 15 aprile 2023. Tuttavia, se hai utilizzato un acceleratore Amazon EI almeno una volta negli ultimi 30 giorni, puoi collegare un nuovo acceleratore Amazon EI alla tua istanza.

D: Attualmente utilizziamo acceleratori Amazon Elastic Inference (EI). Potremo continuare a utilizzarli dopo il 15 aprile 2023?

Sì, potrete utilizzare gli acceleratori Amazon EI. Vi consigliamo di migrare i vostri attuali carichi di lavoro ML Inference in esecuzione su Amazon EI ad altre opzioni di accelerazione hardware non appena possibile.

D: Come posso valutare opzioni di istanza alternative per i miei attuali endpoint di inferenza Amazon SageMaker?

Inferenza con funzione di suggerimento Amazon SageMaker può aiutarti a identificare implementazioni convenienti per migrare i carichi di lavoro esistenti da Amazon Elastic Inference (EI) a un'istanza ML appropriata supportata da SageMaker.

D: Come posso modificare il tipo di istanza per il mio endpoint esistente in Amazon SageMaker?

Innanzitutto, crea un nuovo EndpointConfig che utilizzi il nuovo tipo di istanza. Se disponi di una politica di autoscaling, elimina la politica di autoscaling esistente.
Chiama UpdateEndpoint specificando l'EndpointConfig appena creato.
Attendi che il tuo endpoint cambi lo stato in InService. Questa operazione richiederà circa 10-15 minuti.
Infine, se hai bisogno della scalabilità automatica per il tuo nuovo endpoint, crea una nuova politica di scalabilità automatica per questo nuovo endpoint e ProductionVariant.

D: Come posso modificare il tipo di istanza per la mia istanza del notebook Amazon SageMaker esistente utilizzando Amazon Elastic Inference (EI)?

Fai clic su “Istanze notebook” in Console, quindi fai clic sull'istanza del notebook che desideri aggiornare. Assicurati che l'istanza Notebook abbia lo stato «Interrotto». Infine, puoi fare clic su «Modifica» e modificare il tipo di istanza. All'avvio dell’istanza notebook, assicurati di selezionare il kernel giusto per la tua nuova istanza.

D: Esiste un tipo di istanza specifico che rappresenta una buona alternativa ad Amazon Elastic Inference (EI)?

Ogni carico di lavoro di machine learning è unico. Ti consigliamo di utilizzare Inferenza con funzione di suggerimento Amazon SageMaker per aiutarti a identificare il tipo di istanza giusto per il tuo carico di lavoro ML, i requisiti di prestazioni e il tuo budget. AWS Inferentia, in particolare inf1.xlarge, è la migliore alternativa ad alte prestazioni e a basso costo per i clienti Amazon EI. Nella tabella seguente, confrontiamo le prestazioni e il prezzo orario di diverse opzioni di acceleratore Amazon EI su SageMaker con Inferentia. Inferentia offre il miglior rapporto prezzo/prestazioni ed è più conveniente all'ora rispetto a tutte le istanze Amazon EI, supponendo un'istanza host c5.xlarge (vedi tabella sotto). Bisogna tener presente che i modelli devono essere compilati prima di poter essere distribuiti su AWS Inferentia. I clienti SageMaker possono utilizzare SageMaker Neo impostando «ml_inf» come TargetDevice per compilare i propri modelli. Se non utilizzi SageMaker, utilizza direttamente il compilatore AWS Neuron.

I prezzi sotto indicati presuppongono la regione us-east-2

Tipo di istanza + Inferenza elastica	Prezzo EI all’ora	Costo totale EI all'ora	Premium in confronto ad AWS Inferentia	Risparmio sui costi di Inferentia rispetto a EI	Prestazioni (FP16 TFLOP)	Miglior. prestazioni con Inferentia
ml.c5.x large + ml.eia2.medium	0,17 USD	0,37 USD	0,07 USD	19%	8	8x
ml.c5.x large + ml.eia1.medio	0,18 USD	0,39 USD	0,09 USD	23%	8	8x
ml.c5.x large + ml.eia2.large	0,34 USD	0,54 USD	0,24 USD	44%	16	4x
ml.c5.x large + ml.eia1.large	0,36 USD	0,57 USD	0,27 USD	47%	16	4x
ml.c5.xlarge + ml.eia2.xlarge	0,48 USD	0,68 USD	0,38 USD	56%	32	2x
ml.c5.xlarge + ml.eia1.xlarge	0,73 USD	0,93 USD	0,63 USD	68%	32	2x

D: Cos’è Amazon Elastic Inference?

R: Amazon Elastic Inference (Amazon EI) è un servizio di calcolo accelerato che consente di allegare la giusta quantità di accelerazione di inferenza basata su GPU a qualsiasi tipo di istanza Amazon EC2, Amazon SageMaker o attività Amazon ECS. Ciò significa che ora puoi scegliere il tipo di istanza più adatto alle esigenze complessive di elaborazione, memoria e archiviazione dell'applicazione, quindi configurare separatamente la quantità di accelerazione di inferenza di cui si ha bisogno.

D: Cosa sono gli acceleratori di Amazon Elastic Inference?

R: Gli acceleratori di Amazon Elastic Inference sono dispositivi di hardware basati su GPU progettati per funzionare con qualsiasi istanza EC2, SageMaker o attività ECS per accelerare i carichi di lavoro di inferenza di deep learning a un costo ridotto. Quando si avvia un'istanza EC2 o un'attività ECS con Amazon Elastic Inference, un acceleratore viene assegnato e allegato all'istanza attraverso la rete. Gli strumenti e i framework di deep learning come TensorFlow Serving, Apache MXNet e PyTorch che sono abilitati per Amazon Elastic Inference possono rilevare e ripartire automaticamente operazioni di calcolo di modelli all'acceleratore allegato.

D: Qual è la differenza tra i tipi di famiglie degli acceleratori Amazon Elastic Inference?

R: Gli acceleratori EIA2 hanno una memoria GPU doppia rispetto agli acceleratori EIA1 equivalenti. È possibile determinare le esigenze di memoria della GPU in base al modello e alle dimensioni di input del tensor e scegliere la famiglia di acceleratori e il tipo adatti alle proprie esigenze.

Configurazione

D: Come si effettua il provisioning degli acceleratori di Amazon Elastic Inference?

R: Si possono configurare gli endpoint Amazon SageMaker, le istanze di Amazon EC2 o le attività ECS con gli acceleratori di Amazon Elastic Inference usando la Console di gestione AWS, l’interfaccia a riga di comando (CLI) o l’SDK AWS. Ci sono due requisiti per l’avvio di istanze EC2 con acceleratori. Prima si deve effettuare il provisioning di un endpoint VPC di AWS PrivateLink per le sottoreti nelle quali si desidera avviare gli acceleratori. Poi, quando si avvia l’istanza, occorre fornire un ruolo di istanza con una policy che permette agli utenti di accedere all’istanza per collegare gli acceleratori. Quando si configura un’istanza da avviare con Amazon EI, viene riservato un acceleratore nella stessa zona di disponibilità nell’endpoint VPC.

D: Quali formati di modello supporta Amazon Elastic Inference?

R: Amazon Elastic Inference supporta i modelli addestrati con TensorFlow, Apache MXNet, PyTorch e ONNX.

D: Posso distribuire modelli su Amazon Elastic Inference usando framework TensorFlow, Apache MXNet o PyTorch?

R: Sì, puoi usare librerie TensorFlow Serving, Apache MXNet e PyTorch ottimizzate per AWS per distribuire modelli ed effettuare chiamate inferenziali.

D: Come posso accedere a framework ottimizzati per AWS?

R: Le AMI AWS Deep Learning includono le versioni più recenti di TensorFlow Serving, Apache MXNet e PyTorch ottimizzate per essere usate con gli acceleratori di Amazon Elastic Inference. Puoi anche ottenere tramite Amazon S3 le librerie per creare le tue AMI o immagini di contenitori. Per ulteriori informazioni, consulta la nostra documentazione (https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/elastic-inference.html).

D: Posso usare CUDA con gli acceleratori di Amazon Elastic Inference?

R: No, puoi solo usare librerie TensorFlow Serving, Apache MXNet o PyTorch ottimizzate per AWS come interfaccia con gli acceleratori di Amazon Elastic Inference.

Prezzi e fatturazione

D: Come viene fatturato l'utilizzo di Amazon Elastic Inference?

R: Si paga solo per le ore di acceleratore di Amazon Elastic Inference utilizzate. Per ulteriori informazioni, consulta la pagina dei prezzi.

D: Mi saranno addebitati costi per gli endpoint VPC di AWS PrivateLink per il servizio Amazon Elastic Inference?

R: No, non ti saranno addebitati costi per gli endpoint VPC per il servizio Amazon Elastic Inference dal momento in cui hai almeno un'istanza configurata con un acceleratore, eseguita nella zona di disponibilità dove è riservato un endpoint VPC.