Istanze Inf1 di Amazon EC2

Inferenza di machine learning ad alte prestazioni e con il costo più basso nel cloud

Le istanze Inf1 di Amazon EC2 offrono prestazioni elevate e l'inferenza di machine learning più economica nel cloud. Le istanze Inf1 sono costruite da zero per supportare le applicazioni di inferenza di machine learning. Queste istanze Inf1 presentano fino a 16 chip AWS Inferentia, chip di inferenza di machine learning ad alte prestazioni progettati e realizzati da AWS. Inoltre, abbiamo abbinato i chip Inferentia con i più recenti processori scalabili Intel® Xeon® di seconda generazione personalizzati e una rete fino a 100 Gb/s per consentire un'inferenza a throughput elevato. Questa potente configurazione consente alle istanze Inf1 di offrire un throughput fino a 3 volte superiore e un costo per inferenza fino al 40% inferiore rispetto alle istanze G4 di Amazon EC2, che erano già le istanze più economiche per l'inferenza di machine learning disponibili nel cloud. Attraverso le istanze Inf1, i clienti possono eseguire applicazioni di inferenza di machine learning su larga scala come riconoscimento di immagini, riconoscimento vocale, elaborazione del linguaggio naturale, personalizzazione e rilevamento di frodi, al costo più basso disponibile nel cloud.

I clienti di una vasta gamma di settori si rivolgono al machine learning per affrontare casi d'uso comuni per applicazioni, quali fornire consigli di acquisto personalizzati, migliorare la sicurezza e la protezione attraverso la moderazione dei contenuti online e migliorare il coinvolgimento dei clienti con i chatbot. I clienti desiderano maggiori prestazioni per le loro applicazioni di machine learning al fine di offrire la migliore esperienza possibile all'utente finale.

Per iniziare con l'inferenza di machine learning utilizzando le istanze Inf1, puoi sfruttare il modello addestrato di machine learning e compilarlo affinché venga eseguito sul chip AWS Inferentia utilizzando AWS Neuron. AWS Neuron è un kit di sviluppo software (SDK) composto da strumenti compiler, runtime e di profilazione che consente di ottimizzare le prestazioni dell'inferenza di machine learning dei chip Inferentia. Si integra con framework di machine learning diffusi come TensorFlow, PyTorch e MXNet, è in dotazione preinstallato nelle AMI di AWS Deep Learning e può anche essere installato nel tuo ambiente personalizzato senza framework. Il modo più facile e rapido per iniziare con le istanze Inf1 è tramite Amazon SageMaker, un servizio completamente gestito che consente agli sviluppatori di creare, addestrare e distribuire rapidamente modelli di machine learning. Amazon SageMaker supporta le istanze Inf1 e AWS Neuron per garantire la distribuzione con un clic dei modelli di machine learning nelle istanze di dimensionamento automatico Inf1 su più zone di disponibilità per un'elevata ridondanza.

SiteMerch-EC2-Instances_accelerated-trial_2up

Prova gratuita: fino a 10.000 USD in crediti AWS per istanze EC2 Hardware Accelerated, ideali per machine learning, HPC e applicazioni grafiche.

Fai clic qui per richiederla 
Istanze Inf1 di Amazon EC2 basate su AWS Inferentia (2:51)

Vantaggi

Costo per inferenza fino al 40% inferiore

L'elevato throughput delle istanze Inf1 consente il minor costo per inferenza nel cloud, cioè un costo per inferenza fino al 40% inferiore rispetto alle istanze G4 di Amazon EC2, che erano già le istanze più economiche per l'inferenza di machine learning disponibili nel cloud. Considerando che l'inferenza di machine learning rappresenta fino al 90% dei costi operativi complessivi per l'esecuzione di carichi di lavoro di machine learning, ciò si traduce in un notevole risparmio sui costi.

Throughput fino a 3 volte superiore

Le istanze Inf1 offrono un throughput elevato per le applicazioni di inferenza batch, un throughput fino a 3 volte superiore rispetto alle istanze G4 di Amazon EC2. Le applicazioni di inferenza batch, come il tag di foto, sono sensibili al throughput di inferenza o al numero di inferenze che possono essere elaborate al secondo. Con un numero da 1 a 16 chip AWS Inferentia per istanza, le istanze Inf1 possono dimensionare le prestazioni fino a 2000 Tera Operations per Second (TOPS).

Latenza estremamente bassa

Le istanze Inf1 offrono una latenza estremamente bassa per le applicazioni in tempo reale. Le applicazioni di inferenza in tempo reale, come il riconoscimento vocale, devono fare inferenze in risposta all'input di un utente rapidamente e sono sensibili alla latenza di inferenza. L'ampia memoria integrata sui chip AWS Inferentia utilizzata nelle istanze Inf1 consente la memorizzazione nella cache dei modelli di machine learning direttamente sul chip. Ciò elimina la necessità di accedere a risorse di memoria esterne durante l'inferenza, consentendo una bassa latenza senza influire sulla larghezza di banda.

Facilità d'uso

Le istanze Inf1 sono facili da usare e richiedono poca o nessuna modifica del codice per supportare la distribuzione dei modelli addestrati, utilizzando i più diffusi framework di machine learning, tra cui TensorFlow, PyTorch e MXNet. Il modo più facile e rapido per iniziare con le istanze Inf1 è tramite Amazon SageMaker, un servizio completamente gestito che consente agli sviluppatori di creare, addestrare e distribuire rapidamente modelli di machine learning.

Flessibilità per diversi modelli di machine learning

Utilizzando AWS Neuron, le istanze Inf1 supportano molti modelli di machine learning comunemente usati, ad esempio single shot detector (SSD) e ResNet per il riconoscimento/la classificazione delle immagini, nonché Transformer e BERT per l'elaborazione e la traduzione del linguaggio naturale.

Supporto per più tipi di dati

Le istanze Inf1 supportano più tipi di dati, tra cui INT8, BF16 e FP16 con precisione mista per supportare un'ampia gamma di modelli e esigenze in termini di prestazioni.

Amazon SageMaker

Amazon SageMaker semplifica la compilazione e distribuzione del modello addestrato di machine learning nella produzione sulle istanze Inf1 di Amazon, consentendoti di iniziare a generare previsioni in tempo reale a bassa latenza. Amazon SageMaker è un servizio completamente gestito offre a sviluppatori e data scientist la capacità di creare, addestrare e distribuire in modo rapido modelli di machine learning. Amazon SageMaker semplifica i passaggi del processo di machine learning e agevola lo sviluppo di modelli di alta qualità, li regola per ottimizzarne le prestazioni e li distribuisce in produzione più rapidamente. AWS Neuron, il compiler per AWS Inferentia, è integrato in Amazon SageMaker Neo e ti consente di compilare i modelli di machine learning addestrati affinché vengano eseguiti in modo ottimale sulle istanze Inf1. Con Amazon SageMaker puoi scegliere agevolmente di eseguire i tuoi modelli su cluster con dimensionamento automatico di istanze Inf1 che sono distribuite su più zone di disponibilità, per offrire inferenza in tempo reale sia a prestazioni elevate che a disponibilità elevata.

Ulteriori informazioni »

Come funziona

Come usare Inf1 e AWS Inferentia

Chip AWS Inferentia

AWS Inferentia è un chip di inferenza di machine learning progettato e realizzato da AWS per offrire alte prestazioni a costi contenuti. Ogni chip AWS Inferentia ha 4 NeuronCore e supporta tipi di dati FP16, BF16 e INT8. I chip AWS Inferentia dispongono di una notevole quantità di memoria su chip che può essere utilizzata per il caching di grandi modelli, una possibilità particolarmente vantaggiosa per i modelli che richiedono un accesso frequente alla memoria. AWS Inferentia ha in dotazione il kit di sviluppo software (SDK) AWS Neuron che consiste in strumenti compiler, runtime e profilazione. Consente l'esecuzione di modelli di rete neurale complessi, creati e addestrati in framework diffusi come Tensorflow, PyTorch e MXNet, utilizzando AWS Inferentia basato sulle istanze Inf1 di Amazon EC2. AWS Neuron supporta anche la capacità di suddividere modelli di grandi dimensioni per l'esecuzione su più chip Inferentia utilizzando un'interconnessione fisica da chip a chip ad alta velocità e assicurando throughput ad alta inferenza e costi a bassa inferenza.

Ulteriori informazioni >>

Casi d'uso

Raccomandazioni

Il machine learning viene sempre più utilizzato per migliorare il coinvolgimento dei clienti tramite l'offerta crescente di consigli personalizzati su prodotti e contenuti, risultati di ricerca su misura e promozioni di marketing mirate.

Previsioni

Le aziende oggi utilizzato qualsiasi strumento, dai semplici fogli di calcolo ai complessi software di pianificazione finanziaria, per cercare di prevedere in modo accurato i risultati futuri dell'azienda in termini di richiesta dei prodotti, necessità di risorse o prestazioni finanziarie. Questi strumenti creano previsioni analizzando serie di dati storici, chiamati dati di serie temporali. Le aziende utilizzano il machine learning sempre di più per combinare i dati delle serie temporali con variabili aggiuntive per costruire previsioni.

Analisi di immagini e video

Il machine learning viene utilizzato oggi per identificare oggetti, persone, testo, scene e attività, nonché per rilevare eventuali contenuti inappropriati di immagini o video. Inoltre, l'analisi facciale e il riconoscimento facciale su immagini e video possono rilevare, analizzare e confrontare i volti per un'ampia varietà di casi d'uso, ad esempio la verifica dell'utente, il conteggio delle persone e la pubblica sicurezza.

Analisi di testo avanzata

Il machine learning è particolarmente efficace nell'identificare con precisione specifici elementi di interesse all'interno di vaste aree di testo (come la ricerca di nomi di società nei report degli analisti) e può apprendere il sentiment nascosto nel linguaggio (ad esempio, identificare recensioni negative o interazioni positive dei clienti con gli agenti del servizio clienti), su scala quasi illimitata.

Analisi dei documenti

Il machine learning può essere utilizzato per "leggere" all'istante praticamente qualsiasi tipo di documento per estrarre con precisione testo e dati, senza la necessità di alcun sforzo manuale o codice personalizzato. Puoi automatizzare rapidamente i flussi di lavoro dei documenti, ciò che ti consente di elaborare milioni di pagine di documenti in poche ore.

Voce

Le aziende possono utilizzare il machine learning per trasformare il testo in una conversazione reale, consentendoti di creare applicazioni che parlano e di costruire categorie completamente nuove di prodotti con funzionalità vocali. I servizi di sintesi vocale (TTS, Text-to-Speech) possono utilizzare tecnologie avanzate di deep learning per sintetizzare una voce che assomiglia a quella umana.

Agenti di conversazione

L'intelligenza artificiale viene utilizzata nel migliorare l'esperienza del cliente nei call center tramite il coinvolgimento dei chatbot – assistenti virtuali intelligenti con linguaggio naturale. Questi chatbot sono in grado di riconoscere il linguaggio umano e di comprendere l'intento del chiamante senza chiedergli di parlare con frasi specifiche. I chiamanti possono eseguire attività come la modifica di una password, la richiesta di un saldo su un account o la pianificazione di un appuntamento, senza la necessità di parlare con un agente.

Traduzione

Le aziende possono utilizzare la traduzione basata su machine learning per fornire traduzioni più accurate e più naturali rispetto agli algoritmi di traduzione tradizionali statistici e basati su regole. Le aziende possono localizzare contenuti, tra cui siti Web e applicazioni, per utenti internazionali e tradurre facilmente grandi volumi di testo in modo efficiente.

Trascrizione

La trascrizione basata su machine learning può essere utilizzata per molte applicazioni comuni, inclusa la trascrizione delle chiamate al servizio clienti e la creazione di sottotitoli su contenuti audio e video. I servizi di trascrizione possono inserire timestamp per ogni parola, in modo da poter individuare facilmente l'audio nella fonte originale cercando il testo.

Rilevamento di attività fraudolente

Il rilevamento di attività fraudolente tramite machine learning rileva attività potenzialmente fraudolente e contrassegna tali attività per la revisione. Il rilevamento di attività fraudolente viene generalmente utilizzato nel settore dei servizi finanziari per classificare le transazioni come legittime o fraudolente, utilizzando un modello che calcola una transazione in base all'importo, all'ubicazione, al commerciante o al tempo.

Sanità

Il machine learning in ambito sanitario consente ai medici di trattare i pazienti più rapidamente, non solo riducendo i costi, ma anche migliorando i risultati. Gli ospedali stanno migliorando le tradizionali tecnologie di imaging a raggi X, come gli ultrasuoni e le scansioni TC, incorporando diversi set di dati (dati riportati dai pazienti, dati raccolti tramite i sensori e numerose altre fonti) nel processo di scansione, e gli algoritmi di machine learning sono in grado di riconoscere la differenza tra risultati normali e anormali.

Prezzi

Nozioni di base

Per compilare e distribuire un modello di machine learning addestrato su Inf1, puoi utilizzare Amazon SageMaker o il kit SDK di AWS Neuron.

• Inizia a usare AWS Neuron su Github
• Assicurati il supporto nel forum degli sviluppatori AWS Neuron
• Scopri come distribuire su Inf1 utilizzando Amazon SageMaker con esempi di Amazon SageMaker su Github