Istanze Inf1 di Amazon EC2

Inferenza di machine learning ad alte prestazioni e con il costo più basso nel cloud

Le aziende di una vasta gamma di settori si rivolgono al machine learning per affrontare casi d'uso, quali fornire consigli di acquisto personalizzati, migliorare la moderazione dei contenuti online e migliorare il coinvolgimento dei clienti con i chatbot context aware. Tuttavia, man mano che i modelli di machine learning diventano più competenti, si fanno anche più complessi. La conseguenza è un incremento delle esigenze di calcolo che comportano costi maggiori. In molti casi, fino al 90% della spesa in infrastrutture per lo sviluppo e l'esecuzione di un'applicazione di machine learning è di tipo inferenza, il che rende essenziale l'esigenza di un'infrastruttura di inferenza ML ad alte prestazioni ed economicamente conveniente.

Le istanze Inf1 di Amazon EC2 offrono un throughput fino al 30% superiore e un costo per inferenza fino al 45% inferiore rispetto alle istanze G4 di Amazon EC2, che erano già le istanze più economiche per l'inferenza di machine learning nel cloud. Le istanze Inf1 sono costruite da zero per supportare le applicazioni di inferenza di machine learning. Queste istanze presentano fino a 16 chip AWS Inferentia, chip di inferenza di machine learning ad alte prestazioni progettati e realizzati da AWS. Inoltre, le istanze Inf1 includono i più recenti processori scalabili Intel® Xeon® di seconda generazione e una rete fino a 100 Gb/s per consentire un'inferenza a throughput elevato. Attraverso le istanze Inf1, i clienti possono eseguire applicazioni di inferenza di machine learning su larga scala come raccomandazione di ricerca, visione computerizzata, riconoscimento vocale, elaborazione del linguaggio naturale, personalizzazione e rilevamento di frodi, al costo più basso disponibile nel cloud.

Gli sviluppatori possono distribuire i propri modelli di machine learning alle inferenze Inf1 utilizzando SDK AWS Neuron, che si integra con diffusi framework di machine learning come TensorFlow, PyTorch e MXNet. È costituito da strumenti compiler, run-time e profilazione per ottimizzare le prestazioni dell'inferenza su AWS Inferentia. Il modo più facile e rapido per iniziare con le istanze Inf1 è tramite Amazon SageMaker, un servizio completamente gestito che consente agli sviluppatori di creare, addestrare e distribuire rapidamente modelli di machine learning. Gli sviluppatori che preferiscono gestire le proprie piattaforme di sviluppo di applicazioni di machine learning possono iniziare sia avviando le istanze Inf1 con le AMI di deep learning di AWS, che includono il kit AWS Neuron, sia utilizzando le istanze Inf1 tramite Amazon Elastic Kubernetes Service (EKS) o Amazon Elastic Container Service (ECS) per le applicazioni di machine learning containerizzate.

SiteMerch-EC2-Instances_accelerated-trial_2up

Prova gratuita: fino a 10.000 USD in crediti AWS per istanze EC2 Hardware Accelerated, ideali per machine learning, HPC e applicazioni grafiche.

Fai clic qui per richiederla 
Istanze Inf1 di Amazon EC2 basate su AWS Inferentia (2:51)

Vantaggi

Costo per inferenza fino al 45% inferiore

L'elevato throughput delle istanze Inf1 consente il minor costo per inferenza nel cloud, cioè un costo per inferenza fino al 45% inferiore rispetto alle istanze G4 di Amazon EC2, che erano già le istanze più economiche per l'inferenza di machine learning nel cloud. Considerando che l'inferenza di machine learning rappresenta fino al 90% dei costi operativi complessivi per l'esecuzione di carichi di lavoro di machine learning, ciò si traduce in un notevole risparmio sui costi.

Throughput fino al 30% superiore

Le istanze Inf1 offrono un throughput elevato per le applicazioni di inferenza batch, un throughput fino al 30% superiore rispetto alle istanze G4 di Amazon EC2. Le applicazioni di inferenza batch, come il tag di foto, sono sensibili al throughput di inferenza o al numero di inferenze che possono essere elaborate al secondo. Le istanze Inf1 sono ottimizzate per fornire alte prestazioni per piccoli batch, un dato essenziale per le applicazioni con rigidi requisiti di tempi di risposta. Con un numero da 1 a 16 chip AWS Inferentia per istanza, le istanze Inf1 possono dimensionare le prestazioni fino a 2000 Tera Operations per Second (TOPS).

Latenza estremamente bassa

Le istanze Inf1 offrono una latenza bassa per le applicazioni in tempo reale. Le applicazioni di inferenza in tempo reale, come la generazione e la ricerca vocale, devono fare inferenze in risposta all'input di un utente rapidamente e sono sensibili alla latenza di inferenza. L'ampia memoria integrata sui chip AWS Inferentia utilizzata nelle istanze Inf1 consente la memorizzazione nella cache dei modelli di machine learning direttamente sul chip. Ciò elimina la necessità di accedere a risorse di memoria esterne durante l'inferenza, consentendo una bassa latenza senza influire sulla larghezza di banda.

Inferenza di machine learning per un'ampia gamma di casi d'uso

Gli sviluppatori possono sfruttare alte prestazioni, bassa latenza e inferenza a basso costo con istanze Inf1 per un'ampia gamma di applicazioni di machine learning applicabili su diversi settori tra cui analisi immagini e video, agenti di conversazione, rilevamento frodi, previsioni finanziarie, automazione sanitaria, motori di raccomandazioni, analisi del testo e trascrizione.

Facilità d'uso e portabilità del codice

Poiché il kit AWS Neuron si integra con comuni framework di machine learning quali TensorFlow e PyTorch, gli sviluppatori possono distribuire i propri modelli esistenti nelle istanze Inf1 di EC2 con modifiche del codice minime. Ciò assicura agli sviluppatori la libertà di continuare a usare il framework di ML che preferiscono, di scegliere la piattaforma informatica che meglio soddisfa i loro requisiti di prezzo-prestazioni e di sfruttare le più recenti tecnologie senza essere legati a librerie software di specifici fornitori.

Supporto per diversi modelli di machine learning e tipi di dati

Utilizzando AWS Neuron, le istanze Inf1 supportano molti modelli di machine learning comunemente usati, ad esempio single shot detector (SSD) e ResNet per il riconoscimento/la classificazione delle immagini, nonché Transformer e BERT per l'elaborazione e la traduzione del linguaggio naturale. Più tipi di dati, tra cui INT8, BF16 e FP16 con precisione mista, sono supportati per un'ampia gamma di modelli e esigenze in termini di prestazioni.

Caratteristiche

Powered by AWS Inferentia

AWS Inferentia è un chip di machine learning progettato e realizzato appositamente da AWS per offrire inferenza ad alte prestazioni a costi contenuti. Ogni chip AWS Inferentia fornisce fino a 128 TOPS (migliaia di miliardi di operazioni al secondo) di prestazioni oltre al supporto per i tipi di dati FP16, BF16 e INT8. I chip AWS Inferentia dispongono anche di una notevole quantità di memoria su chip che può essere utilizzata per il caching di grandi modelli, una possibilità particolarmente vantaggiosa per i modelli che richiedono un accesso frequente alla memoria.

Il kit di sviluppo software (SDK) AWS Neuron consiste in strumenti compiler, runtime e profilazione. Consente l'esecuzione di modelli di rete neurale complessi, creati e addestrati in framework diffusi come TensorFlow, PyTorch e MXNet, da eseguire utilizzando le istanze Inf1. AWS Neuron supporta anche la capacità di suddividere modelli di grandi dimensioni per l'esecuzione su più chip Inferentia utilizzando un'interconnessione fisica da chip a chip ad alta velocità e assicurando throughput ad alta inferenza e costi a bassa inferenza.

Reti e storage ad alte prestazioni

Le istanze Inf1 offrono fino a 100 Gb/s di throughput di rete per applicazioni che richiedono l'accesso alle reti ad alta velocità. La tecnologia di nuova generazione Elastic Network Adapter (ENA) e NVM Express (NVMe) fornisce alle istanze Inf1 un throughput elevato, interfacce a bassa latenza per le reti e Amazon Elastic Block Store (Amazon EBS).

Basate su AWS Nitro System

Il sistema Nitro AWS è una ricca raccolta di elementi costitutivi che consente di scaricare molte delle tradizionali funzioni di virtualizzazione su hardware e software dedicati per offrire elevate prestazioni, alta disponibilità e alta sicurezza riducendo al contempo il sovraccarico della virtualizzazione.

Come funziona

Come usare Inf1 e AWS Inferentia

Clienti testimonial

SkyWatch
"Integriamo il machine learning (ML) in molti aspetti di Snapchat, ed esplorare le opportunità di innovazione in questo campo è una delle nostre massime priorità. Dopo avere sentito parlare di Inferentia, abbiamo iniziato a collaborare con AWS per adottare le istanze Inf1/Inferentia per aiutarci con la distribuzione del ML, anche sotto il profilo di costi e prestazioni. Siamo partiti dai nostri modelli di raccomandazione e progettiamo di adottare le istanze Inf1 per altri modelli in futuro."

Nima Khajehnouri, VP Engineering, Snap Inc.

Anthem
Anthem è un'azienda statunitense leader del settore dell'assistenza sanitaria che risponde alle esigenze mediche in oltre 40 milioni di membri di una dozzina di stati. "Il mercato delle piattaforme sanitarie digitali cresce a un ritmo impressionante. Centralizzare l'intelligence del mercato è un compito impegnativo per via della grande quantità di dati sulle opinioni dei clienti e della loro natura destrutturata. La nostra applicazione automatizza la generazione di analisi concrete a partire dalle opinioni dei clienti tramite modelli di linguaggio naturale di deep learning (trasformatori). Inoltre, è a elevata intensità di calcolo e deve essere distribuita in modo altamente performante. Abbiamo effettuato la distribuzione lineare del nostro carico di lavoro di inferenza di deep learning nelle istanze Inf1 di Amazon EC2, basate sul processore AWS Inferentia. Le nuove istanze Inf1 offrono il doppio del throughput alle istanze basate su GPU e consentono di ottimizzare i carichi di lavoro di inferenza."

Numan Laanait, PhD, Principal AI/Data Scientist e Miro Mihaylov, PhD, Principal AI/Data Scientist

Anthem
"Autodesk sta sviluppando la tecnologia cognitiva del nostro assistente virtuale basato su IA, Autodesk Virtual Agent (AVA), utilizzando Inferentia. AVA risponde a oltre 100.000 domande dei clienti ogni mese utilizzando tecniche di riconoscimento del linguaggio naturale (NLU) e deep learning per estrarre il contesto, l'intento e il significato delle richieste. Sfruttando Inferentia, siamo riusciti a ottenere un throughput di 4,9 volte superiore rispetto a G4dn per i nostri modelli di NLU, e progettiamo di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia."

Binghui Ouyang, Sr Data Scientist, Autodesk

Condé Nast
"Il portafoglio globale di Condé Nast comprende oltre 20 marchi di servizi multimediali leader del settore, tra cui Wired, Vogue e Vanity Fair. In poche settimane, il nostro team è stato in grado di integrare il nostro motore di raccomandazione con i chip AWS Inferentia. Questa integrazione consente più ottimizzazioni di runtime per modelli in linguaggio naturale all'avanguardia sulle istanze Inf1 di SageMaker. In questo modo, abbiamo riscontrato una riduzione del 72% dei costi rispetto alle istanze GPU distribuite in precedenza."

Paul Fryzel, Principal Engineer, AI Infrastructure

Asahi Shimbun
“The Asahi Shimbun è uno dei quotidiani maggiormente diffusi in Giappone. Media Lab, uno dei reparti della nostra azienda, ha le missioni di ricercare la tecnologia più recente, specie l'AI, e mettere in connessione tecnologie all'avanguardia per nuove attività. Con il lancio delle istanze Inf1 di Amazon EC2 basate su AWS Inferentia a Tokyo, abbiamo testato la nostra applicazione AI di sintesi testuale basata su PyTorch su queste istanze. L'applicazione elabora una grande quantità di testo e genera titoli e frasi di sintesi grazie all'addestramento su articoli degli ultimi 30 anni. Grazie all'uso di Inferentia, abbiamo ridotto i costi di un ordine di grandezza rispetto alle istanze basate su CPU. La drastica riduzione dei costi ci consentirà di distribuire i nostri modelli più complessi su larga scala, cosa che in precedenza avevamo considerato economicamente non sostenibile."

Hideaki Tamori, PhD, Senior Administrator, Media Lab, The Asahi Shimbun Company

CS Disco
“CS Disco sta reinventando la tecnologia legale come fornitore leader di soluzioni di intelligenza artificiale per l'e-discovery sviluppate da avvocati e destinate agli stessi. Disco AI accelera l'ingrato compito di analizzare in dettaglio terabyte di dati, velocizzando i tempi di revisione e migliorandone l'accuratezza grazie a modelli complessi di elaborazione del linguaggio naturale, che sono computazionalmente costosi e proibitivi. L'azienda ha scoperto che le istanze Inf1 basate su AWS Inferentia riducono il costo dell'inferenza in Disco AI di almeno il 35% rispetto alle istanze GPU odierne. Sulla base di questa esperienza positiva con le istanze di Inf1, CS Disco esplorerà le opportunità di migrare a Inferentia."

Alan Lockett, Sr. Director of Research presso CS Disco

Talroo
“A Talroo, forniamo ai nostri clienti una piattaforma basata su dati che consente loro di attrarre candidati esclusivi per i posti di lavoro in vista delle assunzioni. Siamo costantemente alla ricerca di nuove tecnologie per garantire la migliore offerta di prodotti e servizi ai nostri clienti. Grazie all'uso di Inferentia estraiamo approfondimenti da un corpus di dati testuali per potenziare la nostra tecnologia search-and-match alimentata da AI. Talroo sfrutta le istanze Inf1 di Amazon EC2 per creare modelli di riconoscimento del linguaggio naturale ad elevato throughput con SageMaker. Il testing iniziale di Talroo mostra che le istanze Inf1 di Amazon EC2 assicurano una latenza di inferenza del 40% inferiore e il doppio del throughput rispetto alle istanze basate su GPU G4dn. Sulla base di questi risultati, Talroo non vede l'ora di utilizzare le istanze Inf1 di Amazon EC2 nell'ambito della sua infrastruttura AWS."

Janet Hu, Software Engineer, Talroo

Digital Media Professionals (DMP)
Digital Media Professionals (DMP) visualizza il futuro con una piattaforma ZIA in tempo reale basata sull'intelligenza artificiale (AI). Usiamo le tecnologie di classificazione per una visione computerizzata ed efficiente di DMP in modo da creare analisi di grandi quantità di dati immagine in tempo reale, come l'osservazione delle condizioni e la prevenzione di crimini e incidenti. Valutiamo attivamente le istanze Inf1 su opzioni alternative, dato che crediamo che Inferentia ci fornirà le prestazioni e la struttura dei costi necessarie per distribuire le applicazioni di IA su vasta scala." 

Hiroyuki Umeda, Director e General Manager, Sales & Marketing Group, Digital Media Professionals

Hotpot.ai
Hotpot.ai consente ai non designer di creare grafiche accattivanti e aiuta i designer professionisti ad automatizzare le attività routinarie. "Dato che il machine learning è alla base della nostra strategia, siamo entusiasti di provare AWS Inferentia basato sulle istanze Inf1. Le istanze Inf1 sono facili da integrare alla nostra pipeline di ricerca e sviluppo. Un aspetto ancora più importante sta nel fatto che abbiamo riscontrato guadagni in termini di prestazioni considerevoli rispetto alle istanze G4dn basate su GPU. Con il nostro primo modello, abbiamo ottenuto prestazioni maggiori del 45% per le istanze Inf1, dimezzando i costi per inferenza. Il nostro intento è collaborare a stretto contatto con il team AWS per ottenere altri modelli e trasferire gran parte della nostra infrastruttura di inferenza di machine learning ad AWS Inferentia."

Clarence Hu, Fondatore, Hotpot.ai

INGA
"La missione di INGA è creare soluzioni avanzate di sintesi di testi basate sulle tecnologie di intelligenza artificiale e di deep learning che possano essere facilmente integrate nelle attuali pipeline di business. Riteniamo che la sintesi dei testi sia essenziale per consentire alle aziende di ricavare informazioni utili e significative dai dati. Abbiamo incrementato rapidamente le nostre istanze Inf1 di Amazon EC2 basate su AWS Inferentia e le abbiamo integrate nella nostra pipeline di sviluppo. L'impatto è stato immediato e significativo. Le istanze Inf1 assicurano alte prestazioni, che ci consentono di migliorare l'efficienza e l'efficacia delle nostre pipeline dei modelli di inferenza. Abbiamo immediatamente usufruito di un throughput 4 volte più veloce e di costi complessivi della pipeline del 30% inferiori rispetto alla nostra precedete pipeline basata su GPU."

Yaroslav Shakula, Chief Business Development Officer, INGA Technologies

SkyWatch
"SkyWatch elabora centinaia di migliaia di miliardi di pixel di dati di osservazione terrestre, acquisiti ogni giorno dallo spazio. Adottare le nuove istanze Inf1 basate su AWS Inferentia che utilizzano Amazon SageMaker per il rilevamento del cloud in tempo reale e per i punteggi della qualità dell'immagine è stato rapido e semplice. Si è trattato semplicemente di cambiare il tipo di istanza nella nostra configurazione della distribuzione. Cambiare tipi di istanze in Inf1 basati su Inferentia ci ha consentito di migliorare le prestazioni del 40% e di ridurre i costi complessivi del 23%. È una grande vittoria. Ci ha consentito di ridurre i nostri costi di esercizio complessivi pur continuando a fornire immagini satellitari di alta qualità ai nostri clienti, con spese di ingegnerizzazione minime. Non vediamo l'ora di eseguire la transizione di tutti i nostri endpoint di inferenza e i nostri processi ML in batch per utilizzare le istanze Inf1 e migliorare ulteriormente l'affidabilità dei dati e l'esperienza dei clienti."

Adler Santos, Engineering Manager, SkyWatch

I servizi Amazon utilizzano le istanze Inf1 di Amazon EC2

Amazon Alexa

A livello globale, sono stati venduti oltre 100 milioni di dispositivi Alexa e i clienti hanno lasciato oltre 400.000 recensioni a 5 stelle per i dispositivi Echo su Amazon. “L'intelligenza basata su IA e su ML di Amazon Alexa, con tecnologia Amazon Web Services, è disponibile oggi su oltre 100 milioni di dispositivi e la nostra promessa ai clienti è che Alexa continui a diventare sempre più intelligente, che ami conversare, sia più proattiva e persino sempre più gradevole” ha dichiarato Tom Taylor, Senior Vice President, Amazon Alexa. "Rispettare questa promessa richiede miglioramenti continui nei tempi di risposta e nei costi dell'infrastruttura di machine learning, ed è per questo che siamo entusiasti di utilizzare Inf1 di Amazon EC2 per abbassare la latenza di inferenza e il costo per inferenza della sintesi vocale di Alexa. Con Inf1 di Amazon EC2, possiamo migliorare ulteriormente il servizio per le decine di milioni di clienti che utilizzano Alexa ogni mese.”

Amazon Alexa
"Amazon Rekognition è un'applicazione di analisi di video e immagini semplice e intuitiva che aiuta i clienti a identificare oggetti, persone, testi e attività. Amazon Rekognition richiede un'infrastruttura di deep learning ad alte prestazioni in grado di analizzare quotidianamente miliardi di immagini e video per i nostri consumatori. Con le istanze Inf1 basate su AWS Inferentia, l'esecuzione di modelli di Rekognition, come ad esempio la classificazione degli oggetti, ha riscontrato una latenza di 8 volte inferiore e un throughput di 2 volte maggiore rispetto all'esecuzione degli stessi modelli su GPU. Sulla base di questi riscontri, stiamo trasferendo Rekognition su Inf1, per consentire ai nostri clienti di ottenere risultati più precisi in un tempo inferiore."
 
Rajneesh Singh, Director, SW Engineering, Rekognition and Video

Prezzi

* I prezzi sono calcolati per la regione AWS Stati Uniti orientali (Virginia settentrionale). Per quanto riguarda le istanze che non prevedono pagamenti anticipati parziali, i prezzi per le istanze riservate di 1 anno e di 3 anni si applicano alle opzioni di pagamento "parzialmente anticipato" o "nessun anticipo".

Le istanze Inf1 di Amazon EC2 sono disponibili nelle regioni AWS Stati Uniti orientali (Virginia) e Stati Uniti occidentali (Oregon) come istanze on demand, riservate o Spot.

Nozioni di base

Uso di Amazon SageMaker

Amazon SageMaker semplifica la compilazione e distribuzione del modello addestrato di machine learning nella produzione sulle istanze Inf1 di Amazon, consentendoti di iniziare a generare previsioni in tempo reale a bassa latenza. AWS Neuron, il compiler per AWS Inferentia, è integrato in Amazon SageMaker Neo e ti consente di compilare i modelli di machine learning addestrati affinché vengano eseguiti in modo ottimale sulle istanze Inf1. Con Amazon SageMaker puoi eseguire agevolmente i tuoi modelli su cluster con dimensionamento automatico di istanze Inf1 che sono distribuite su più zone di disponibilità, per offrire inferenza in tempo reale sia a prestazioni elevate che a disponibilità elevata. Scopri come distribuire su Inf1 utilizzando Amazon SageMaker con esempi su Github.

Uso delle AMI di Deep Learning di AWS

Le AMI di AWS Deep Learning (DLAMI) forniscono agli esperti di machine learning e ai ricercatori l'infrastruttura e gli strumenti nel cloud necessari per velocizzare i processi di apprendimento profondo su qualsiasi scala. Il kit AWS Neuron viene preinstallato nelle AMI di deep learning di AWS per compilare ed eseguire i tuoi modelli di machine learning in modo ottimale sulle istanze Inf1. Per una guida alle operazioni di base del processo, visita la guida alla selezione delle AMI e ulteriori risorse di deep learning. Consultare la guida Operazioni di base AWS DLAMI per ulteriori informazioni su come utilizzare DLAMI con Neuron.

Uso dei container di deep learning

Gli sviluppatori possono ora distribuire istanze Inf1 in Amazon Elastic Kubernetes Service (EKS), un servizio Kubernetes interamente gestito, e in Amazon Elastic Container Service (ECS), un servizio di orchestrazione di container interamente gestito di Amazon. Scopri come iniziare a utilizzare Inf1 su Amazon EKS in questo blog. Ulteriori dettagli su come eseguire container sulle istanze Inf1 sono disponibili alla pagina Tutorial sugli strumenti container Neuron. Supporto Inf1 per container di deep learning di AWS prossimamente disponibile.