Istanze Inf1 di Amazon EC2

Inferenza di machine learning ad alte prestazioni e con il costo più basso nel cloud

Aziende di vari settori stanno esaminando la trasformazione potenziata dall'IA - Intelligenza Artificiale per guidare l'innovazione aziendale, migliorare l'esperienza cliente e i processi. I modelli di machine learning che potenziano le applicazioni IA stanno divenendo sempre più complessi, con il risultato di aumentare i costi sottesi all'infrastruttura di computazione. Fino al 90% dell'infrastruttura della spesa per sviluppare ed eseguire applicazioni ML è spesso destinata all'inferenza. I clienti sono alla ricerca di soluzioni economiche a livello di infrastruttura per distribuire le loro applicazioni ML nella produzione.

Le istanze Inf1 di Amazon EC2 offrono inferenza ML con prestazioni elevate ai costi più bassi nel cloud. Consegnano un throughput fino a 2,3 volte superiore e costi fino al 70% più bassi per inferenza rispetto all'attuale generazione comparabile basata su GPU delle istanze di Amazon EC2. Le istanze Inf1 sono costruite da zero per supportare le applicazioni di inferenza di machine learning. Presentano fino a 16 chip AWS Inferentia, chip di inferenza di machine learning ad alte prestazioni progettati e realizzati da AWS. Inoltre le istanze Inf1 includono processori scalabili Intel® Xeon® di seconda generazione e una rete fino a 100 Gb/s per consegnare un'inferenza a throughput elevato.

I clienti possono usare le istanze Inf1 per eseguire applicazioni di inferenza di machine learning su larga scala come motori di raccomandazione e di ricerca, visione computerizzata, riconoscimento vocale, elaborazione del linguaggio naturale, personalizzazione e rilevamento di frodi al costo più basso disponibile nel cloud.

Gli sviluppatori possono distribuire i propri modelli di machine learning alle inferenze Inf1 con l'utilizzo di SDK AWS Neuron, che si integra con diffusi framework di machine learning come TensorFlow, PyTorch e MXNet. Possono continuare a usare gli stessi flussi di lavoro ML e migrare senza problemi le applicazioni su istanze Inf1 con modifiche minime al codice e senza alcun legame con soluzioni specifiche del fornitore.

Inizia a utilizzare le istanze Inf1 in modo facile con Amazon SageMaker, AMI di AWS Deep Learning già preconfigurate con Neuron SDK oppure utilizza Amazon ECS o Amazon EKS per applicazioni di ML in container.

Amazon EC2 Inf1 Instances | Amazon Web Services (1:23)

Vantaggi

Costo per inferenza fino al 70% inferiore

Usando Inf1 gli sviluppatori possono ridurre in modo significativo i costi per le distribuzioni della produzione di machine learning al costo per inferenza più basso nel cloud. La combinazione di bassi costi per istanza e throughput elevato delle istanze Inf1 offre un costo per inferenza inferiore fino al 70% rispetto all'attuale generazione comparabile basata su GPU delle istanze di Amazon EC2.

Facilità d'uso e portabilità del codice

Neuron SDK è integrato con framework di machine learning comuni come TensorFlow, PyTorch e MXNet. Gli sviluppatori possono continuare a usare gli stessi flussi di lavoro ML e migrare senza problemi le applicazioni su istanze Inf1 con modifiche minime al codice. Questo fornisce la libertà di usare il framework di scelta per il machine learning, la piattaforma di computazione che meglio risponde alle loro richieste e sfrutta le ultime tecnologie senza bisogno di essere legata alle soluzioni specifiche dei fornitori.

Throughput fino a 2,3 volte superiore

Le istanze Inf1 consegnano un throughput fino a 2,3 volte superiore rispetto all'attuale generazione comparabile basata su GPU delle istanze di Amazon EC2 I chip di AWS Inferentia che potenziano le istanze Inf1 sono ottimizzati per le prestazioni di inferenza per dimensioni piccole di batch, consentendo alle applicazioni in tempo reale di massimizzare il throughput e rispettare le condizioni di latenza.

Latenza estremamente bassa

I chip AWS Inferentia sono muniti di un'ampia memoria on-chip che consente la memorizzazione nella cache dei modelli di machine learning direttamente sul chip. Puoi distribuire i tuoi modelli usando capacità come la pipeline di NeuronCore che elimina la necessità di accedere a risorse di memoria esterne. Con le istanze Inf1 puoi distribuire le applicazioni di inferenza in tempo reale alle latenze in tempo reale senza impatto sulla bandwidth.

Supporto per un'ampia gamma di modelli di machine learning e tipi di dati

Le istanze Inf1 supportano molte architetture di modello di machine learning comunemente usate come SSD, VGG e ResNext per il riconoscimento/la classificazione delle immagini, nonché Transformer e BERT per l'elaborazione del linguaggio naturale. Inoltre il supporto per il repository del modello HuggingFace in Neuron offre ai clienti la possibilità di compilare ed eseguire l'inferenza utilizzando i modelli preaddestrati, o anche ottimizzati, facilmente, modificando solo una singola riga di codice. Più tipi di dati, tra cui BF16 e FP16 con precisione mista, sono supportati per un'ampia gamma di modelli e esigenze in termini di prestazioni.

Caratteristiche

Con tecnologia AWS Inferentia

AWS Inferentia è un chip di machine learning realizzato appositamente da AWS per offrire inferenza ad alte prestazioni a costi contenuti. Ogni chip AWS Inferentia ha quattro NeuronCore di prima generazione e fornisce fino a 128 tera operazioni al secondo (TOPS) di prestazioni e supporto per i tipi di dati FP16, BF16 e INT8. I chip AWS Inferentia dispongono anche di una notevole quantità di memoria su chip che può essere utilizzata per il caching di grandi modelli, una possibilità particolarmente vantaggiosa per i modelli che richiedono un accesso frequente alla memoria.

Il kit di sviluppo software (SDK) AWS Neuron consiste in strumenti compiler, driver di runtime e profilazione. Consente la distribuzione di modelli di rete neurale complessi, creati e addestrati in framework diffusi come TensorFlow, PyTorch e MXNet, da eseguire utilizzando le istanze Inf1. Con NeuronCore pipeline di Neuron puoi anche suddividere modelli di grandi dimensioni per l'esecuzione su più chip Inferentia utilizzando un'interconnessione fisica da chip a chip ad alta velocità e assicurando throughput ad alta inferenza e costi a bassa inferenza.

Reti e storage ad alte prestazioni

Le istanze Inf1 offrono fino a 100 Gb/s di throughput di rete per applicazioni che richiedono l'accesso alle reti ad alta velocità. La tecnologia di nuova generazione Elastic Network Adapter (ENA) e NVM Express (NVMe) fornisce alle istanze Inf1 un throughput elevato, interfacce a bassa latenza per le reti e Amazon Elastic Block Store (Amazon EBS).

Basate su AWS Nitro System

Il sistema Nitro AWS è una ricca raccolta di elementi costitutivi che consente di scaricare molte delle tradizionali funzioni di virtualizzazione su hardware e software dedicati per offrire elevate prestazioni, alta disponibilità e alta sicurezza riducendo al contempo il sovraccarico della virtualizzazione.

Come funziona

Come usare Inf1 e AWS Inferentia

Clienti testimonial

airbnb-case-study

Fondato nel 2008, Airbnb con sede a San Francisco è un marketplace di comunità con oltre 4 milioni di host che hanno accolto più di 900 milioni di ospiti in arrivo in quasi tutti i paesi del mondo.

"La Community Support Platform di Airbnb offre esperienze di servizio intelligenti, scalabili ed eccezionali alla nostra community di milioni di ospiti e host in tutto il mondo. Siamo costantemente alla ricerca di modi per migliorare le prestazioni dei nostri modelli di elaborazione del linguaggio naturale utilizzati dalle nostre applicazioni di chatbot di supporto. Con le istanze Inf1 di Amazon EC2 basate su AWS Inferentia, osserviamo un miglioramento di 2 volte del throughput rispetto alle istanze basate su GPU per i nostri modelli BERT basati su PyTorch. Non vediamo l'ora di sfruttare le istanze Inf1 per altri modelli e casi d'uso in futuro".

Bo Zeng, Engineering Manager - AirBnB

Snap Inc
"Integriamo il machine learning (ML) in molti aspetti di Snapchat, ed esplorare le opportunità di innovazione in questo campo è una delle nostre massime priorità. Dopo avere sentito parlare di Inferentia, abbiamo iniziato a collaborare con AWS per adottare le istanze Inf1/Inferentia per aiutarci con la distribuzione del ML, anche sotto il profilo di costi e prestazioni. Siamo partiti dai nostri modelli di raccomandazione e progettiamo di adottare le istanze Inf1 per altri modelli in futuro".

Nima Khajehnouri, VP Engineering - Snap Inc.

Sprinklr
"La piattaforma unificata per la gestione dell'esperienza cliente (Unified-CXM) di Sprinklr, guidata dall'intelligenza artificiale, permette alle aziende di raccogliere e tradurre i feedback in tempo reale dei clienti provenienti da canali multipli e trasformarli in informazioni dettagliate da utilizzare per le proprie operazioni: il risultato è una risoluzione dei problemi proattiva, uno sviluppo dei prodotti migliorato, un marketing dei contenuti più puntuale, una migliore assistenza al cliente e tanto altro. Utilizzando Amazon EC2 Inf1, siamo stati in grado di migliorare in maniera significativa le prestazioni di uno dei nostri modelli di elaborazione del linguaggio naturale (NLP), nonché di migliorare le prestazioni di uno dei nostri modelli di visione artificiale. Non vediamo l'ora di continuare a utilizzare Amazon EC2 Inf1, in modo da poter servire al meglio i nostri clienti in tutto il mondo".

Vasant Srinivasan, Senior Vice President of Product Engineering - Sprinklr

Print
"Il nostro prodotto all'avanguardia per l'elaborazione del linguaggio naturale (NLP), Finch for Text, offre agli utenti la possibilità di estrarre, disambiguare e arricchire diversi tipi di entità in enormi volumi di testo. Finch for Text richiede risorse di calcolo significative per fornire ai nostri clienti arricchimenti a bassa latenza su feed di dati globali. Ora utilizziamo le istanze Inf1 di AWS nei nostri modelli di elaborazione del linguaggio naturale (NLP), traduzione e disambiguazione delle entità PyTorch. Siamo riusciti a ridurre i costi di inferenza di oltre l'80% (rispetto alle GPU) con ottimizzazioni minime, mantenendo la velocità di inferenza e le prestazioni. Questo miglioramento consente ai nostri clienti di arricchire i loro testi in francese, spagnolo, tedesco e olandese in tempo reale su feed di dati in streaming e su scala globale, un aspetto fondamentale per i nostri servizi finanziari, gli aggregatori di dati e i clienti del settore pubblico".

Scott Lightner, Chief Technology Officer - Finch Computing

Autodesk
"Autodesk sta sviluppando la tecnologia cognitiva del nostro assistente virtuale basato su IA, Autodesk Virtual Agent (AVA), utilizzando Inferentia. AVA risponde a oltre 100.000 domande dei clienti ogni mese utilizzando tecniche di riconoscimento del linguaggio naturale (NLU) e deep learning per estrarre il contesto, l'intento e il significato delle richieste. Sfruttando Inferentia, siamo riusciti a ottenere un throughput di 4,9 volte superiore rispetto a G4dn per i nostri modelli di NLU, e progettiamo di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia."

Binghui Ouyang, Sr Data Scientist - Autodesk

Screening Eagle
"L'uso del Ground Penetrating Radar e l'individuazione di difetti visivi sono in genere di competenza di rilevatori esperti. Un'architettura basata su microservizi AWS ci consente di elaborare i video acquisiti dai veicoli di ispezione automatizzati e ispettori. Migrando i nostri modelli costruiti internamente dalle istanze tradizionali basate su GPU a Inferentia, siamo riusciti a ridurre i costi del 50%. Inoltre, abbiamo potuto notare un aumento delle prestazioni confrontando i tempi con un'istanza con GPU G4dn. Il nostro team è impaziente di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia".

Jesús Hormigo, Responsabile del cloud e dell'intelligenza artificiale - Screening Eagle Technologies

NTT PC

NTTPC Communications è un fornitore di servizi di rete e soluzioni di comunicazione in Giappone, leader delle telecomunicazioni nell'introduzione di nuovi prodotti innovativi nel mercato delle tecnologie dell'informazione e della comunicazione.

"NTTPC ha sviluppato "AnyMotion", un servizio di piattaforma API di analisi del movimento basato su modelli avanzati di machine learning per la stima della postura. NTTPC ha distribuito la propria piattaforma AnyMotion su istanze Inf1 di Amazon EC2 utilizzando Amazon Elastic Container Service (ECS) per un servizio di orchestrazione di container completamente gestito. Distribuendo i propri contenitori AnyMotion su Amazon EC2 Inf1, NTTPC ha registrato un aumento di 4,5 volte, una latenza di inferenza inferiore del 25% e un costo inferiore del 90% rispetto alle istanze EC2 basate su GPU della generazione attuale. Questi risultati superiori aiuteranno a migliorare la qualità del servizio AnyMotion su larga scala".

Toshiki Yanagisawa, Software Engineer - NTT PC Communications Incorporated

Anthem

Anthem è un'azienda statunitense leader del settore dell'assistenza sanitaria che risponde alle esigenze mediche di oltre 40 milioni di membri in una dozzina di stati. 

"Il mercato delle piattaforme sanitarie digitali cresce a un ritmo impressionante. Centralizzare l'intelligence del mercato è un compito impegnativo per via della grande quantità di dati sulle opinioni dei clienti e della loro natura destrutturata. La nostra applicazione automatizza la generazione di analisi concrete a partire dalle opinioni dei clienti tramite modelli di linguaggio naturale di deep learning (trasformatori). Inoltre, è a elevata intensità di calcolo e deve essere distribuita in modo altamente performante. Abbiamo effettuato la distribuzione lineare del nostro carico di lavoro di inferenza di deep learning nelle istanze Inf1 di Amazon EC2, basate sul processore AWS Inferentia. Le nuove istanze Inf1 offrono il doppio del throughput alle istanze basate su GPU e consentono di ottimizzare i carichi di lavoro di inferenza".

Numan Laanait, PhD, Principal AI/Data Scientist - Anthem
Miro Mihaylov, PhD, Principal AI/Data Scientist - Anthem

Condé Nast
"Il portafoglio globale di Condé Nast comprende oltre 20 marchi di servizi multimediali leader del settore, tra cui Wired, Vogue e Vanity Fair. In poche settimane, il nostro team è stato in grado di integrare il nostro motore di raccomandazione con i chip AWS Inferentia. Questa integrazione consente più ottimizzazioni di runtime per modelli in linguaggio naturale all'avanguardia sulle istanze Inf1 di SageMaker. In questo modo, abbiamo riscontrato una riduzione del 72% dei costi rispetto alle istanze GPU distribuite in precedenza".

Paul Fryzel, Principal Engineer, AI Infrastructure - Condé Nast

Ciao
"Ciao trasforma le telecamere di sicurezza convenzionali in telecamere di analisi ad alte prestazioni equivalenti alla capacità dell'occhio umano. La nostra applicazione promuove la prevenzione dei disastri, monitorando le condizioni ambientali tramite soluzioni AI basate su cloud e sviluppate per telecamere, in modo da inviare avvisi prima che si verifichi un disastro. Tali avvisi consentono di reagire alla situazione critica in anticipo. Inoltre, sulla base del rilevamento di oggetti e dei video dei negozi di mattoni e malta possiamo fornire al relativo personale informazioni dettagliate sulla stima del numero di clienti in arrivo. Da punto di vista commerciale, Ciao Camera ha adottato le istanze Inf1 basate su AWS Inferentia con un prezzo migliore del 40% rispetto alle istanze G4dn con YOLOv4. Non vediamo l'ora che più servizi basati su istanze Inf1 sfruttino la loro significativa efficienza in termini di costi".

Shinji Matsumoto, Software Engineer - Ciao Inc.

欧文ベーシックロゴ(The Asahi Shimbun)
"Asahi Shimbun è uno dei quotidiani più popolari in Giappone. Media Lab, uno dei reparti della nostra azienda, ha le missioni di ricercare la tecnologia più recente, specie l'AI, e mettere in connessione tecnologie all'avanguardia per nuove attività. Con il lancio delle istanze Inf1 di Amazon EC2 basate su AWS Inferentia a Tokyo, abbiamo testato la nostra applicazione AI di sintesi testuale basata su PyTorch su queste istanze. L'applicazione elabora una grande quantità di testo e genera titoli e frasi di sintesi grazie all'addestramento su articoli degli ultimi 30 anni. Grazie all'uso di Inferentia, abbiamo ridotto i costi di un ordine di grandezza rispetto alle istanze basate su CPU. La drastica riduzione dei costi ci consentirà di distribuire i nostri modelli più complessi su larga scala, cosa che in precedenza avevamo considerato economicamente non sostenibile".

Hideaki Tamori, PhD, Senior Administrator, Media Lab - The Asahi Shimbun Company

CS Disco
"CS Disco sta reinventando la tecnologia legale come fornitore leader di soluzioni di intelligenza artificiale per l'e-discovery sviluppate da avvocati e destinate agli stessi. Disco AI accelera l'ingrato compito di analizzare in dettaglio terabyte di dati, velocizzando i tempi di revisione e migliorandone l'accuratezza grazie a modelli complessi di elaborazione del linguaggio naturale, che sono computazionalmente costosi e proibitivi. L'azienda ha scoperto che le istanze Inf1 basate su AWS Inferentia riducono il costo dell'inferenza in Disco AI di almeno il 35% rispetto alle istanze GPU odierne. Sulla base di questa esperienza positiva con le istanze di Inf1, CS Disco esplorerà le opportunità di migrare a Inferentia".

Alan Lockett, Sr. Director of Research - CS Disco

Talroo
"A Talroo, forniamo ai nostri clienti una piattaforma basata su dati che consente loro di attrarre candidati esclusivi per i posti di lavoro in vista delle assunzioni. Siamo costantemente alla ricerca di nuove tecnologie per garantire la migliore offerta di prodotti e servizi ai nostri clienti. Grazie all'uso di Inferentia estraiamo approfondimenti da un corpus di dati testuali per potenziare la nostra tecnologia search-and-match alimentata da AI. Talroo sfrutta le istanze Inf1 di Amazon EC2 per creare modelli di riconoscimento del linguaggio naturale ad elevato throughput con SageMaker. Il testing iniziale di Talroo mostra che le istanze Inf1 di Amazon EC2 assicurano una latenza di inferenza del 40% inferiore e il doppio del throughput rispetto alle istanze basate su GPU G4dn. Sulla base di questi risultati, Talroo non vede l'ora di utilizzare le istanze Amazon EC2 Inf1 come parte della sua infrastruttura AWS".

Janet Hu, Software Engineer - Talroo

DMP
"Digital Media Professionals (DMP) visualizza il futuro con una piattaforma ZIA™ basata sull'IA (Intelligenza Artificiale). Le tecnologie di classificazione per una visione computerizzata ed efficiente di DMP consentono di ottenere approfondimenti su grandi quantità di dati di immagine in tempo reale, tra cui l'osservazione delle condizioni e la prevenzione di crimini e incidenti. Abbiamo riscontrato che i nostri modelli di segmentazione delle immagini vengono eseguiti quattro volte più rapidamente nelle istanze Inf1 basate su AWS Inferentia rispetto alle istanze G4 basate su GPU. Grazie al throughput più elevato e alla riduzione dei costi, Inferentia ci consente di distribuire tutti i carichi di lavoro IA, come le applicazioni per telecamere da cruscotto, su vasta scala".

Hiroyuki Umeda, Director & General Manager, Sales & Marketing Group - Digital Media Professionals

Hotpot.ai

Hotpot.ai consente ai non designer di creare grafiche accattivanti e aiuta i designer professionisti ad automatizzare le attività routinarie. 

"Dato che il machine learning è alla base della nostra strategia, siamo entusiasti di provare AWS Inferentia basato sulle istanze Inf1. Le istanze Inf1 sono facili da integrare alla nostra pipeline di ricerca e sviluppo. Un aspetto ancora più importante sta nel fatto che abbiamo riscontrato guadagni in termini di prestazioni considerevoli rispetto alle istanze G4dn basate su GPU. Con il nostro primo modello, abbiamo ottenuto prestazioni maggiori del 45% per le istanze Inf1, dimezzando i costi per inferenza. Il nostro intento è collaborare a stretto contatto con il team AWS per ottenere altri modelli e trasferire gran parte della nostra infrastruttura di inferenza di machine learning ad AWS Inferentia".

Clarence Hu, Founder - Hotpot.ai

SkyWatch
"SkyWatch elabora centinaia di migliaia di miliardi di pixel di dati di osservazione terrestre, acquisiti ogni giorno dallo spazio. Adottare le nuove istanze Inf1 basate su AWS Inferentia che utilizzano Amazon SageMaker per il rilevamento del cloud in tempo reale e per i punteggi della qualità dell'immagine è stato rapido e semplice. Si è trattato semplicemente di cambiare il tipo di istanza nella nostra configurazione della distribuzione. Cambiare tipi di istanze in Inf1 basati su Inferentia ci ha consentito di migliorare le prestazioni del 40% e di ridurre i costi complessivi del 23%. È una grande vittoria. Ci ha consentito di ridurre i nostri costi di esercizio complessivi pur continuando a fornire immagini satellitari di alta qualità ai nostri clienti, con spese di ingegnerizzazione minime. Non vediamo l'ora di eseguire la transizione di tutti i nostri endpoint di inferenza e i nostri processi ML in batch per utilizzare le istanze Inf1 e migliorare ulteriormente l'affidabilità dei dati e l'esperienza dei clienti".

Adler Santos, Engineering Manager - SkyWatch

Money Forward, Inc.

Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria aperta ed equa. Nell'ambito di tale piattaforma, HiTTO Inc., un'azienda del gruppo Money Forward, offre un servizio di chatbot IA, che utilizza modelli di NLP su misura per gestire le diverse esigenze dei clienti aziendali.

"La migrazione del nostro servizio di chatbot IA alle istanze Inf1 di Amazon EC2 è stata semplice. Abbiamo completato la migrazione in 2 mesi e lanciato un servizio su vasta scala sulle istanze Inf1, utilizzando Amazon Elastic Container Service (ECS). Siamo riusciti a ridurre la nostra latenza di inferenza del 97% e i nostri costi di inferenza di oltre il 50% (rispetto a istanze basate su GPU paragonabili), servendo più modelli per ogni istanza Inf1. Siamo impazienti di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia".

Kento Adachi, Technical Lead, CTO Office (Responsabile tecnico, ufficio del direttore tecnico) - Money Forward, Inc.

I servizi Amazon utilizzano le istanze Inf1 di Amazon EC2

Amazon Advertising

Amazon Advertising aiuta le aziende di qualsiasi dimensione a connettersi con i clienti in ogni fase dell'esperienza di acquisto. Ogni giorno milioni di annunci, inclusi testi e immagini, vengono moderati, classificati e serviti per un'esperienza cliente ottimale.

"Per l'elaborazione dei nostri annunci testuali implementiamo modelli BERT basati su PyTorch a livello globale su istanze Inf1 basate su AWS Inferentia. Passando dalle GPU a Inferentia, siamo stati in grado di ridurre i nostri costi del 69% con prestazioni comparabili. Compilare e testare i nostri modelli per AWS Inferentia ha richiesto meno di tre settimane. L'utilizzo di Amazon SageMaker per implementare i nostri modelli sulle istanze Inf1 ha fatto sì che la nostra implementazione fosse scalabile e facile da gestire. Quando ho analizzato per la prima volta i modelli compilati, le prestazioni con AWS Inferentia sono state talmente impressionanti che ho dovuto rieseguire i benchmark per assicurarmi che fossero corretti! In futuro vogliamo migrare i nostri modelli di elaborazione degli annunci con immagini a Inferentia. Abbiamo già valutato una latenza inferiore del 30% e un risparmio sui costi del 71% rispetto a istanze comparabili basate su GPU per questi modelli."

Yashal Kanungo, Applied Scientist, Amazon Advertising

Leggi il blog sulle ultime novità

Alexa 8up logo
"L'intelligenza basata su IA e su ML di Amazon Alexa, con tecnologia Amazon Web Services, è disponibile oggi su oltre 100 milioni di dispositivi e la nostra promessa ai clienti è che Alexa diventi sempre più intelligente, che ami conversare, che sia più proattiva e persino più gradevole. Rispettare questa promessa richiede miglioramenti continui nei tempi di risposta e nei costi dell'infrastruttura di machine learning, ed è per questo che siamo entusiasti di utilizzare Inf1 di Amazon EC2 per abbassare la latenza di inferenza e il costo per inferenza della sintesi vocale di Alexa. Con Inf1 di Amazon EC2, possiamo migliorare ulteriormente il servizio per le decine di milioni di clienti che utilizzano Alexa ogni mese".

Tom Taylor, vicepresidente senior, Amazon Alexa

"Continuiamo a innovare per migliorare ulteriormente l'esperienza dei nostri clienti e per ridurre i costi delle infrastrutture. Spostando i nostri carichi di lavoro di web-based question answering (WBQA) dalle istanze P3 basate su GPU alle istanze Inf1 basate su AWS Inferentia, non solo abbiamo ridotto i costi di inferenza del 60%, ma abbiamo anche migliorato la latenza end-to-end di oltre il 40%, contribuendo a migliorare l'esperienza di D&R dei clienti con Alexa. L'utilizzo di Amazon SageMaker per il nostro modello basato su Tensorflow ha reso il processo di passaggio alle istanze Inf1 semplice e facile da gestire. Ora stiamo usando istanze Inf1 a livello globale per eseguire questi carichi di lavoro WBQA e stiamo ottimizzando le loro prestazioni per AWS Inferentia per ridurre ulteriormente i costi e la latenza".

Eric Lind, ingegnere di sviluppo software, Alexa AI

Amazon Alexa
"Amazon Prime Video utilizza modelli ML di visione artificiale per analizzare la qualità video degli eventi dal vivo, al fine di garantire un'esperienza di visione ottimale per gli iscritti a Prime Video. Abbiamo distribuito i nostri modelli ML di classificazione delle immagini su istanze Inf1 EC2 e siamo riusciti a ottenere un miglioramento delle prestazioni di 4 volte e un risparmio fino al 40% sui costi. Stiamo ora cercando di sfruttare questi risparmi sui costi per innovare e costruire modelli avanzati in grado di rilevare difetti più complessi, come le lacune di sincronizzazione tra i file audio e video, per offrire un'esperienza di visione migliore agli iscritti a Prime Video".
 
Victor Antonino, Solutions Architect, Amazon Prime Video
Amazon Alexa
"Amazon Rekognition è un'applicazione di analisi di video e immagini semplice e intuitiva che aiuta i clienti a identificare oggetti, persone, testi e attività. Amazon Rekognition richiede un'infrastruttura di deep learning ad alte prestazioni in grado di analizzare quotidianamente miliardi di immagini e video per i nostri consumatori. Con le istanze Inf1 basate su AWS Inferentia, l'esecuzione di modelli di Rekognition, come ad esempio la classificazione degli oggetti, ha riscontrato una latenza di 8 volte inferiore e un throughput di 2 volte maggiore rispetto all'esecuzione degli stessi modelli su GPU. Sulla base di questi riscontri, stiamo trasferendo Rekognition su Inf1, per consentire ai nostri clienti di ottenere risultati più precisi in un tempo inferiore".
 
Rajneesh Singh, Director, SW Engineering, Rekognition and Video

Prezzi

* I prezzi sono calcolati per la regione AWS Stati Uniti orientali (Virginia settentrionale). Per quanto riguarda le istanze che non prevedono pagamenti anticipati parziali, i prezzi per le istanze riservate di 1 anno e di 3 anni si applicano alle opzioni di pagamento "parzialmente anticipato" o "nessun anticipo".

Le istanze Inf1 di Amazon EC2 sono disponibili nelle regioni AWS Stati Uniti orientali (Virginia) e Stati Uniti occidentali (Oregon) come istanze on demand, riservate o Spot.

Nozioni di base

Uso di Amazon SageMaker

Amazon SageMaker semplifica la compilazione e distribuzione del modello addestrato di machine learning nella produzione sulle istanze Inf1 di Amazon, consentendoti di iniziare a generare previsioni in tempo reale a bassa latenza. AWS Neuron, il compiler per AWS Inferentia, è integrato in Amazon SageMaker Neo e ti consente di compilare i modelli di machine learning addestrati affinché vengano eseguiti in modo ottimale sulle istanze Inf1. Con Amazon SageMaker puoi eseguire agevolmente i tuoi modelli su cluster con dimensionamento automatico di istanze Inf1 che sono distribuite su più zone di disponibilità, per offrire inferenza in tempo reale sia a prestazioni elevate che a disponibilità elevata. Scopri come distribuire su Inf1 utilizzando Amazon SageMaker con esempi su Github.

Uso delle AMI di Deep Learning di AWS

Le AMI di AWS Deep Learning (DLAMI) forniscono agli esperti di machine learning e ai ricercatori l'infrastruttura e gli strumenti nel cloud necessari per velocizzare i processi di apprendimento profondo su qualsiasi scala. Il kit AWS Neuron viene preinstallato nelle AMI di deep learning di AWS per compilare ed eseguire i tuoi modelli di machine learning in modo ottimale sulle istanze Inf1. Per una guida alle operazioni di base del processo, visita la guida alla selezione delle AMI e ulteriori risorse di deep learning. Consulta la AWS DLAMI Getting Started guide per ulteriori informazioni su come utilizzare DLAMI con Neuron.

Uso dei container di deep learning

Gli sviluppatori possono ora distribuire istanze Inf1 in Amazon Elastic Kubernetes Service (EKS), un servizio Kubernetes interamente gestito, e in Amazon Elastic Container Service (ECS), un servizio di orchestrazione di container interamente gestito di Amazon. Scopri come iniziare a utilizzare Inf1 su Amazon EKS o con Amazon ECS. Ulteriori dettagli su come eseguire container sulle istanze Inf1 sono disponibili alla pagina del tutorial sugli strumenti container Neuron. Neuron è anche disponibile preinstallato negli AWS DL Container.

Blog e articoli

How Amazon Search reduced ML inference costs by 85% with AWS Inferentia (In che modo Amazon Search ha ridotto dell'85% i costi di inferenza ML con AWS Inferentia)

a cura di Joao Moura, Jason Carlson, Jaspreet Singh, Shaohui Xi, Shruti Koparkar, Haowei Sun, Weiqi Zhang e Zhuoqi Zhangs, 22/09/2022

High-performance, low-cost machine learning infrastructure is accelerating innovation in the cloud (Il ricorso a infrastrutture di machine learning a basso costo e ad elevate prestazioni sta accelerando il processo di innovazione nel cloud)

a cura di MIT Technology Review Insights, 01/11/2021