Istanze Inf1 di Amazon EC2

Inferenza di machine learning ad alte prestazioni e a costi ridotti

Aziende di vari settori stanno esaminando la trasformazione potenziata dall'intelligenza artificiale (IA) per guidare l'innovazione aziendale, migliorare l'esperienza cliente e i processi. I modelli di machine learning (ML) che potenziano le applicazioni di IA stanno divenendo sempre più complessi, con il risultato di aumentare i costi sottesi all'infrastruttura di computazione. Fino al 90% dell'infrastruttura della spesa per sviluppare ed eseguire applicazioni ML è spesso destinata all'inferenza. I clienti sono alla ricerca di soluzioni economiche a livello di infrastruttura per distribuire le loro applicazioni ML nella produzione.

Le istanze Inf1 di Amazon EC2 offrono un'inferenza ML ad alte prestazioni e a basso costo. Queste istanze garantiscono una velocità di trasmissione effettiva fino a 2,3 volte superiore e costi fino al 70% più bassi per inferenza rispetto alle istanze di Amazon EC2 paragonabili. Le istanze Inf1 vengono sviluppate da zero per supportare le applicazioni di inferenza di ML. Presentano fino a 16 chip AWS Inferentia, chip di inferenza di ML ad alte prestazioni progettati e realizzati da AWS. Inoltre, le istanze Inf1 includono processori scalabili Intel Xeon di seconda generazione e una rete fino a 100 Gb/s per consegnare un'inferenza a throughput elevato.

I clienti possono usare le istanze Inf1 per eseguire applicazioni di inferenza di ML su larga scala come motori di raccomandazione e di ricerca, visione computerizzata, riconoscimento vocale, elaborazione del linguaggio naturale, personalizzazione e rilevamento di frodi.

Gli sviluppatori possono implementare i propri modelli di ML alle inferenze Inf1 con l'utilizzo dell'SDK AWS Neuron, che si integra con framework di ML diffusi come TensorFlow, PyTorch e Apache MXNet. Possono continuare a usare gli stessi flussi di lavoro ML e migrare senza problemi le applicazioni su istanze Inf1 con modifiche minime al codice e senza alcun legame con soluzioni specifiche del fornitore.

Inizia a utilizzare facilmente le istanze Inf1 con Amazon SageMaker, AWS Deep Learning AMI (DLAMI) preconfigurate con SDK Neuron o Amazon Elastic Container Service (Amazon ECS) o Amazon Elastic Kubernetes Service (Amazon EKS) per applicazioni ML containerizzate.

Istanze Inf1 di Amazon EC2 (1:23)

Vantaggi

Costo per inferenza fino al 70% inferiore

Usando Inf1 gli sviluppatori possono ridurre in modo significativo i costi di implementazioni in produzione ML. La combinazione di bassi costi per istanza e velocità di trasmissione effettiva delle istanze Inf1 offre un costo per inferenza inferiore fino al 70% rispetto alle istanze Amazon EC2 paragonabili.

Facilità d'uso e portabilità del codice

Neuron SDK è integrato con framework di ML comuni come TensorFlow, PyTorch e MXNet. Gli sviluppatori possono continuare a usare gli stessi flussi di lavoro ML e migrare senza problemi le applicazioni su istanze Inf1 con modifiche minime al codice. Questo fornisce la libertà di usare il framework di scelta per il ML, la piattaforma di computazione che meglio risponde alle loro richieste e sfrutta le ultime tecnologie senza bisogno di essere legata alle soluzioni specifiche dei fornitori.

Velocità di trasmissione effettiva fino a 2,3 volte superiore

Le istanze Inf1 forniscono una velocità di trasmissione effettiva fino a 2,3 volte superiore rispetto alle istanze Amazon EC2 paragonabili. I chip di AWS Inferentia che potenziano le istanze Inf1 sono ottimizzati per le prestazioni di inferenza per dimensioni piccole di batch, consentendo alle applicazioni in tempo reale di massimizzare la velocità di trasmissione effettiva e rispettare le condizioni di latenza.

Latenza estremamente bassa

I chip AWS Inferentia sono muniti di un'ampia memoria on-chip che consente la memorizzazione nella cache dei modelli di ML direttamente sul chip. Puoi implementare i tuoi modelli usando capacità come la pipeline NeuronCore che elimina la necessità di accedere a risorse di memoria esterne. Con le istanze Inf1 puoi implementare le applicazioni di inferenza in tempo reale alle latenze in tempo reale senza impatto sulla larghezza di banda.

Supporto per vari modelli ML e tipi di dati

Le istanze Inf1 supportano numerose architetture di modello di ML comunemente usate come SSD, VGG e ResNext per il riconoscimento/la classificazione delle immagini, nonché Transformer e BERT per l'elaborazione del linguaggio naturale. Inoltre il supporto per il repository del modello HuggingFace in Neuron offre ai clienti la possibilità di compilare ed eseguire l'inferenza utilizzando modelli preaddestrati oppure ottimizzati, facilmente, modificando solo una singola riga di codice. Più tipi di dati, tra cui BF16 e FP16 con precisione mista, sono supportati per un'ampia gamma di modelli e esigenze in termini di prestazioni.

Funzionalità

Con tecnologia AWS Inferentia

AWS Inferentia è un chip di ML realizzato appositamente da AWS per offrire inferenza ad alte prestazioni a costi contenuti. Ogni chip AWS Inferentia ha quattro NeuronCore di prima generazione e fornisce fino a 128 tera operazioni al secondo (TOPS) di prestazioni e supporto per i tipi di dati FP16, BF16 e INT8. I chip AWS Inferentia dispongono anche di una notevole quantità di memoria su chip che può essere utilizzata per il caching di grandi modelli, una possibilità particolarmente vantaggiosa per i modelli che richiedono un accesso frequente alla memoria.

L'SDK AWS Neuron è composto da un compilatore, un driver di runtime e strumenti di profilazione. Consente la distribuzione di modelli di rete neurale complessi, creati e addestrati in framework diffusi come TensorFlow, PyTorch e MXNet, da eseguire utilizzando le istanze Inf1. Con la pipeline NeuronCore puoi anche suddividere modelli di grandi dimensioni per l'esecuzione su più chip Inferentia utilizzando un'interconnessione fisica da chip a chip ad alta velocità e assicurando velocità di trasmissione effettiva ad alta inferenza e costi a bassa inferenza.

Reti e archiviazione ad alte prestazioni

Le istanze Inf1 offrono fino a 100 Gb/s di velocità di trasmissione effettiva di rete per applicazioni che richiedono l'accesso alle reti ad alta velocità. La tecnologia di nuova generazione dell’adattatore elastico di rete (ENA) e NVM Express (NVMe) fornisce alle istanze Inf1 una velocità di trasmissione effettiva elevata, interfacce a bassa latenza per le reti e Amazon Elastic Block Store (Amazon EBS).

Basate su AWS Nitro System

Il sistema Nitro AWS è una ricca raccolta di elementi costitutivi che consente di scaricare molte delle tradizionali funzioni di virtualizzazione su hardware e software dedicati per offrire elevate prestazioni, alta disponibilità e alta sicurezza riducendo al contempo il sovraccarico della virtualizzazione.

Come funziona

Come usare Inf1 e AWS Inferentia

Testimonianze dei clienti

airbnb-case-study

Fondato nel 2008, Airbnb con sede a San Francisco è un marketplace di comunità con oltre 4 milioni di host che hanno accolto più di 900 milioni di ospiti in arrivo in quasi tutti i paesi del mondo.

"La Community Support Platform di Airbnb offre esperienze di servizio intelligenti, scalabili ed eccezionali alla nostra community di milioni di ospiti e host in tutto il mondo. Siamo costantemente alla ricerca di modi per migliorare le prestazioni dei nostri modelli di elaborazione del linguaggio naturale utilizzati dalle nostre applicazioni di chatbot di supporto. Con le istanze Inf1 di Amazon EC2 basate su AWS Inferentia, osserviamo un miglioramento di 2 volte della velocità di trasmissione effettiva rispetto alle istanze basate su GPU per i nostri modelli BERT basati su PyTorch. Non vediamo l'ora di sfruttare le istanze Inf1 per altri modelli e casi d'uso in futuro".

Bo Zeng, Engineering Manager, Airbnb
Snap Inc
"Integriamo il machine learning (ML) in molti aspetti di Snapchat, ed esplorare le opportunità di innovazione in questo campo è una delle nostre massime priorità. Dopo avere sentito parlare di Inferentia, abbiamo iniziato a collaborare con AWS per adottare le istanze Inf1/Inferentia per aiutarci con la distribuzione del ML, anche sotto il profilo di costi e prestazioni. Siamo partiti dai nostri modelli di raccomandazione e progettiamo di adottare le istanze Inf1 per altri modelli in futuro".

Nima Khajehnouri, VP Engineering, Snap Inc.
Sprinklr
"La piattaforma unificata per la gestione dell'esperienza cliente (Unified-CXM) di Sprinklr, guidata dall'intelligenza artificiale, permette alle aziende di raccogliere e tradurre i feedback in tempo reale dei clienti provenienti da canali multipli e trasformarli in informazioni dettagliate da utilizzare per le proprie operazioni: il risultato è una risoluzione dei problemi proattiva, uno sviluppo dei prodotti migliorato, un marketing dei contenuti più puntuale, una migliore assistenza al cliente e tanto altro. Con Amazon EC2 Inf1, siamo stati in grado di migliorare in maniera significativa le prestazioni di uno dei nostri modelli di elaborazione del linguaggio naturale (NLP), nonché di migliorare le prestazioni di uno dei nostri modelli di visione artificiale. Non vediamo l'ora di continuare a utilizzare Amazon EC2 Inf1, in modo da poter servire al meglio i nostri clienti in tutto il mondo".

Vasant Srinivasan, Senior Vice President of Product Engineering, Sprinklr
Print
"Il nostro prodotto all'avanguardia per l'elaborazione del linguaggio naturale (NLP), Finch for Text, offre agli utenti la possibilità di estrarre, disambiguare e arricchire diversi tipi di entità in enormi volumi di testo. Finch for Text richiede risorse di calcolo significative per fornire ai nostri clienti arricchimenti a bassa latenza su feed di dati globali. Ora utilizziamo le istanze Inf1 di AWS nei nostri modelli di elaborazione del linguaggio naturale (NLP), traduzione e disambiguazione delle entità PyTorch. Siamo riusciti a ridurre i costi di inferenza di oltre l'80% (rispetto alle GPU) con ottimizzazioni minime, mantenendo la velocità di inferenza e le prestazioni. Questo miglioramento consente ai nostri clienti di arricchire i loro testi in francese, spagnolo, tedesco e olandese in tempo reale su feed di dati in streaming e su scala globale, un aspetto fondamentale per i nostri servizi finanziari, gli aggregatori di dati e i clienti del settore pubblico".

Scott Lightner, Chief Technology Officer, Finch Computing
Finch Computing
"Avvisiamo su molti tipi di eventi in tutto il mondo in molte lingue, in diversi formati (immagini, video, audio, sensori di testo, combinazioni di tutti questi tipi) da centinaia di migliaia di fonti. L'ottimizzazione della velocità e dei costi, data tale scalabilità, è assolutamente fondamentale per la nostra attività. Con AWS Inferentia, abbiamo ridotto la latenza del modello e ottenuto una velocità di trasmissione effettiva per dollaro fino a 9 volte superiore. Questo ci ha permesso di aumentare la precisione dei modelli e ampliare le capacità della nostra piattaforma implementando modelli DL più sofisticati ed elaborando un volume di dati 5 volte superiore, mantenendo i costi sotto controllo".

Alex Jaimes, Chief Scientist and Senior Vice President of AI, Dataminr
Autodesk
"Autodesk sta sviluppando la tecnologia cognitiva del nostro assistente virtuale basato su IA, Autodesk Virtual Agent (AVA), utilizzando Inferentia. AVA risponde a oltre 100.000 domande dei clienti ogni mese utilizzando tecniche di riconoscimento del linguaggio naturale (NLU) e deep learning (DL) per estrarre il contesto, l'intento e il significato delle richieste. Sfruttando Inferentia, siamo riusciti a ottenere una velocità di trasmissione effettiva di 4,9 volte superiore rispetto a G4dn per i nostri modelli di NLU, e progettiamo di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia."

Binghui Ouyang, Sr. Data Scientist, Autodesk
Screening Eagle
"L'uso del ground penetrating radar e l'individuazione di difetti visivi sono in genere di competenza di rilevatori esperti. Un'architettura basata su microservizi AWS ci consente di elaborare i video acquisiti dai veicoli di ispezione automatizzati e ispettori. Migrando i nostri modelli costruiti internamente dalle istanze tradizionali basate su GPU a Inferentia, siamo riusciti a ridurre i costi del 50%. Inoltre, abbiamo potuto notare un aumento delle prestazioni confrontando i tempi con un'istanza con GPU G4dn. Il nostro team è impaziente di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia".

Jesús Hormigo, Chief of Cloud and AI Officer, Screening Eagle Technologies
NTT PC

NTT PC Communications è un fornitore di servizi di rete e soluzioni di comunicazione in Giappone, leader delle telecomunicazioni nell'introduzione di nuovi prodotti innovativi nel mercato delle tecnologie dell'informazione e della comunicazione.

"NTT PC ha sviluppato "AnyMotion", un servizio di piattaforma API di analisi del movimento basato su modelli avanzati di machine learning per la stima della postura. Abbiamo distribuito la nostra piattaforma AnyMotion su istanze Amazon EC2 Inf1 utilizzando Amazon ECS per un servizio di orchestrazione dei container completamente gestito. Implementando i propri container AnyMotion su Amazon EC2 Inf1, abbiamo registrato un aumento di 4,5 volte, una latenza di inferenza inferiore del 25% e un costo inferiore del 90% rispetto alle istanze EC2 basate su GPU della generazione attuale. Questi risultati superiori aiuteranno a migliorare la qualità del servizio AnyMotion su larga scala".

Toshiki Yanagisawa, Software Engineer, NTT PC Communications Inc.
Anthem

Anthem è un'azienda statunitense leader del settore dell'assistenza sanitaria che risponde alle esigenze mediche di oltre 40 milioni di membri in una decina di stati. 

"Il mercato delle piattaforme sanitarie digitali cresce a un ritmo impressionante. Centralizzare l'intelligence del mercato è un compito impegnativo per via della grande quantità di dati sulle opinioni dei clienti e della loro natura destrutturata. La nostra applicazione automatizza la generazione di analisi concrete a partire dalle opinioni dei clienti tramite modelli di linguaggio naturale di deep learning (trasformatori). Inoltre, è a elevata intensità di calcolo e deve essere distribuita in modo altamente performante. Abbiamo effettuato la distribuzione lineare del nostro carico di lavoro di inferenza di deep learning nelle istanze Inf1 di Amazon EC2, basate sul processore AWS Inferentia. Le nuove istanze Inf1 offrono il doppio della velocità di trasmissione effettiva alle istanze basate su GPU e consentono di ottimizzare i carichi di lavoro di inferenza".

Numan Laanait and Miro Mihaylov, PhDs, Principal AI/Data Scientists, Anthem

 

Condé Nast
"Il portafoglio globale di Condé Nast comprende oltre 20 marchi di servizi multimediali leader del settore, tra cui Wired, Vogue e Vanity Fair. In poche settimane, il nostro team è stato in grado di integrare il nostro motore di raccomandazione con i chip AWS Inferentia. Questa integrazione consente più ottimizzazioni di runtime per modelli in linguaggio naturale all'avanguardia sulle istanze Inf1 di SageMaker. In questo modo, abbiamo riscontrato una riduzione del 72% dei costi rispetto alle istanze GPU distribuite in precedenza".

Paul Fryzel, Principal Engineer, AI Infrastructure, Condé Nast
Ciao
"Ciao trasforma le telecamere di sicurezza convenzionali in telecamere di analisi ad alte prestazioni equivalenti alla capacità dell'occhio umano. La nostra applicazione promuove la prevenzione dei disastri, monitorando le condizioni ambientali tramite soluzioni AI basate su cloud e sviluppate per telecamere, in modo da inviare avvisi prima che si verifichi un disastro. Tali avvisi consentono di reagire alla situazione critica in anticipo. Inoltre, sulla base del rilevamento di oggetti e dei video dei negozi di mattoni e malta possiamo fornire al relativo personale informazioni dettagliate sulla stima del numero di clienti in arrivo. Da punto di vista commerciale, Ciao Camera ha adottato le istanze Inf1 basate su AWS Inferentia con un prezzo migliore del 40% rispetto alle istanze G4dn con YOLOv4. Non vediamo l'ora che più servizi basati su istanze Inf1 sfruttino la loro significativa efficienza in termini di costi".

Shinji Matsumoto, Software Engineer, Ciao Inc.
欧文ベーシックロゴ(The Asahi Shimbun)
"The Asahi Shimbun è uno dei quotidiani più popolari in Giappone. Media Lab, uno dei reparti della nostra azienda, ha le missioni di ricercare la tecnologia più recente, specie l'IA, e mettere in connessione tecnologie all'avanguardia per nuove attività. Con il lancio delle istanze Inf1 di Amazon EC2 basate su AWS Inferentia a Tokyo, abbiamo testato la nostra applicazione AI di sintesi testuale basata su PyTorch su queste istanze. L'applicazione elabora una grande quantità di testo e genera titoli e frasi di sintesi grazie all'addestramento su articoli degli ultimi 30 anni. Grazie all'uso di Inferentia, abbiamo ridotto i costi di un ordine di grandezza rispetto alle istanze basate su CPU. La drastica riduzione dei costi ci consentirà di distribuire i nostri modelli più complessi su larga scala, cosa che in precedenza avevamo considerato economicamente non sostenibile".

Hideaki Tamori, PhD, Senior Administrator, Media Lab, The Asahi Shimbun Company
CS Disco
"CS Disco sta reinventando la tecnologia legale come fornitore leader di soluzioni di intelligenza artificiale per l'e-discovery sviluppate da avvocati e destinate agli stessi. Disco AI accelera l'ingrato compito di analizzare in dettaglio terabyte di dati, velocizzando i tempi di revisione e migliorandone l'accuratezza grazie a modelli complessi di elaborazione del linguaggio naturale (NLP), che sono computazionalmente costosi e proibitivi. L'azienda ha scoperto che le istanze Inf1 basate su AWS Inferentia riducono il costo dell'inferenza in Disco AI di almeno il 35% rispetto alle istanze GPU odierne. Sulla base di questa esperienza positiva con le istanze di Inf1, CS Disco esplorerà le opportunità di migrare a Inferentia".

Alan Lockett, Sr. Director of Research, CS Disco
Talroo
"A Talroo, forniamo ai nostri clienti una piattaforma basata su dati che consente loro di attrarre candidati esclusivi per i posti di lavoro in vista delle assunzioni. Siamo costantemente alla ricerca di nuove tecnologie per garantire la migliore offerta di prodotti e servizi ai nostri clienti. Grazie all'uso di Inferentia estraiamo approfondimenti da un corpus di dati testuali per potenziare la nostra tecnologia search-and-match alimentata da IA. Talroo sfrutta le istanze Amazon EC2 Inf1 per creare modelli NLU con velocità di trasmissione effettiva elevata con SageMaker. Il testing iniziale di Talroo mostra che le istanze Inf1 di Amazon EC2 assicurano una latenza di inferenza del 40% inferiore e il doppio della velocità di trasmissione effettiva rispetto alle istanze basate su GPU G4dn. Sulla base di questi risultati, Talroo non vede l'ora di utilizzare le istanze Inf1 Amazon EC2 come parte della sua infrastruttura AWS".

Janet Hu, Software Engineer, Talroo
DMP
"Digital Media Professionals (DMP) visualizza il futuro con una piattaforma ZIA™ basata sull'IA. Le tecnologie di classificazione per una visione computerizzata ed efficiente di DMP consentono di ottenere approfondimenti su grandi quantità di dati di immagine in tempo reale, tra cui l'osservazione delle condizioni e la prevenzione di crimini e incidenti. Abbiamo riscontrato che i nostri modelli di segmentazione delle immagini vengono eseguiti quattro volte più rapidamente nelle istanze Inf1 basate su AWS Inferentia rispetto alle istanze G4 basate su GPU. Grazie alla velocità di trasmissione effettiva più elevata e alla riduzione dei costi, Inferentia ci consente di distribuire tutti i carichi di lavoro IA, come le applicazioni per telecamere da cruscotto, su vasta scala".

Hiroyuki Umeda, Director & General Manager, Sales & Marketing Group, Digital Media Professionals
Hotpot.ai

Hotpot.ai consente ai non designer di creare grafiche accattivanti e aiuta i designer professionisti ad automatizzare le attività routinarie. 

"Dato che il machine learning è alla base della nostra strategia, siamo entusiasti di provare le istanze Inf1 basate su AWS Inferentia. Le istanze Inf1 sono facili da integrare alla nostra pipeline di ricerca e sviluppo. Un aspetto ancora più importante sta nel fatto che abbiamo riscontrato guadagni in termini di prestazioni considerevoli rispetto alle istanze G4dn basate su GPU. Con il nostro primo modello, abbiamo ottenuto prestazioni maggiori del 45% per le istanze Inf1, dimezzando i costi per inferenza. Il nostro intento è collaborare a stretto contatto con il team AWS per ottenere altri modelli e trasferire gran parte della nostra infrastruttura di inferenza di machine learning ad AWS Inferentia".

Clarence Hu, Founder, Hotpot.ai
SkyWatch
"SkyWatch elabora centinaia di migliaia di miliardi di pixel di dati di osservazione terrestre, acquisiti ogni giorno dallo spazio. Adottare le nuove istanze Inf1 basate su AWS Inferentia che utilizzano Amazon SageMaker per il rilevamento del cloud in tempo reale e per i punteggi della qualità dell'immagine è stato rapido e semplice. Si è trattato semplicemente di cambiare il tipo di istanza nella nostra configurazione della distribuzione. Cambiare tipi di istanze in Inf1 basati su Inferentia ci ha consentito di migliorare le prestazioni del 40% e di ridurre i costi complessivi del 23%. È una grande vittoria. Ci ha consentito di ridurre i nostri costi di esercizio complessivi pur continuando a fornire immagini satellitari di alta qualità ai nostri clienti, con spese di ingegnerizzazione minime. Non vediamo l'ora di eseguire la transizione di tutti i nostri endpoint di inferenza e i nostri processi ML in batch per utilizzare le istanze Inf1 e migliorare ulteriormente l'affidabilità dei dati e l'esperienza dei clienti".

Adler Santos, Engineering Manager, SkyWatch
Money Forward, Inc.

Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria aperta ed equa. Nell'ambito di tale piattaforma, HiTTO Inc., un'azienda del gruppo Money Forward, offre un servizio di chatbot IA, che utilizza modelli di NLP su misura per gestire le diverse esigenze dei clienti aziendali.

"La migrazione del nostro servizio di chatbot IA alle istanze Inf1 di Amazon EC2 è stata semplice. Abbiamo completato la migrazione entro due mesi e lanciato un servizio su larga scala sulle istanze Inf1 utilizzando Amazon ECS. Siamo riusciti a ridurre la nostra latenza di inferenza del 97% e i nostri costi di inferenza di oltre il 50% (rispetto a istanze basate su GPU paragonabili), servendo più modelli per ogni istanza Inf1. Siamo impazienti di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia".

Kento Adachi, Technical lead, CTO office, Money Forward Inc.

I servizi Amazon utilizzano le istanze Inf1 di Amazon EC2

Amazon Advertising

Amazon Advertising aiuta le aziende di qualsiasi dimensione a connettersi con i clienti in ogni fase dell'esperienza di acquisto. Ogni giorno milioni di annunci, inclusi testi e immagini, vengono moderati, classificati e serviti per un'esperienza cliente ottimale.

"Per l'elaborazione dei nostri annunci testuali implementiamo modelli BERT basati su PyTorch a livello globale su istanze Inf1 basate su AWS Inferentia. Passando dalle GPU a Inferentia, siamo stati in grado di ridurre i nostri costi del 69% con prestazioni comparabili. Compilare e testare i nostri modelli per AWS Inferentia ha richiesto meno di tre settimane. L'utilizzo di Amazon SageMaker per implementare i nostri modelli sulle istanze Inf1 ha fatto sì che la nostra implementazione fosse scalabile e facile da gestire. Quando ho analizzato per la prima volta i modelli compilati, le prestazioni con AWS Inferentia sono state talmente impressionanti che ho dovuto rieseguire i benchmark per assicurarmi che fossero corretti! In futuro vogliamo migrare i nostri modelli di elaborazione degli annunci con immagini a Inferentia. Abbiamo già valutato una latenza inferiore del 30% e un risparmio sui costi del 71% rispetto a istanze comparabili basate su GPU per questi modelli."

Yashal Kanungo, Applied Scientist, Amazon Advertising

Leggi il blog sulle ultime novità »
Alexa 8up logo
"L'intelligenza basata su IA e ML di Amazon Alexa, con tecnologia AWS, è disponibile oggi su oltre 100 milioni di dispositivi e la nostra promessa ai clienti è che Alexa diventi sempre più intelligente, che ami conversare, che sia più proattiva e persino più gradevole. Rispettare questa promessa richiede miglioramenti continui nei tempi di risposta e nei costi dell'infrastruttura di ML, ed è per questo che siamo entusiasti di utilizzare Inf1 di Amazon EC2 per abbassare la latenza di inferenza e il costo per inferenza della sintesi vocale di Alexa. Con Inf1 di Amazon EC2, possiamo migliorare ulteriormente il servizio per le decine di milioni di clienti che utilizzano Alexa ogni mese".

Tom Taylor, Senior Vice President, Amazon Alexa
 
"Continuiamo a innovare per migliorare ulteriormente l'esperienza dei nostri clienti e per ridurre i costi delle infrastrutture. Spostando i nostri carichi di lavoro di web-based question answering (WBQA) dalle istanze P3 basate su GPU alle istanze Inf1 basate su AWS Inferentia, non solo abbiamo ridotto i costi di inferenza del 60%, ma abbiamo anche migliorato la latenza end-to-end di oltre il 40%, contribuendo a migliorare l'esperienza di D&R dei clienti con Alexa. L'utilizzo di Amazon SageMaker per il nostro modello basato su TensorFlow ha reso il processo di passaggio alle istanze Inf1 semplice e facile da gestire. Ora stiamo usando istanze Inf1 a livello globale per eseguire questi carichi di lavoro WBQA e stiamo ottimizzando le loro prestazioni per AWS Inferentia per ridurre ulteriormente i costi e la latenza".

Eric Lind, Software Development Engineer, Alexa AI
Amazon Alexa
"Amazon Prime Video utilizza modelli ML di visione artificiale per analizzare la qualità video degli eventi dal vivo, al fine di garantire un'esperienza di visione ottimale per gli iscritti a Prime Video. Abbiamo distribuito i nostri modelli ML di classificazione delle immagini su istanze Inf1 EC2 e siamo riusciti a ottenere un miglioramento delle prestazioni di 4 volte e un risparmio fino al 40% sui costi. Stiamo ora cercando di sfruttare questi risparmi sui costi per innovare e costruire modelli avanzati in grado di rilevare difetti più complessi, come le lacune di sincronizzazione tra i file audio e video, per offrire un'esperienza di visione migliore agli iscritti a Prime Video".

Victor Antonino, Solutions Architect, Amazon Prime Video
Amazon Alexa
"Amazon Rekognition è un'applicazione di analisi di video e immagini semplice e intuitiva che aiuta i clienti a identificare oggetti, persone, testi e attività. Amazon Rekognition richiede un'infrastruttura di deep learning ad alte prestazioni in grado di analizzare quotidianamente miliardi di immagini e video per i nostri consumatori. Con le istanze Inf1 basate su AWS Inferentia, l'esecuzione di modelli di Amazon Rekognition, come ad esempio la classificazione degli oggetti, ha riscontrato una latenza di 8 volte inferiore e una velocità di trasmissione effettiva di 2 volte maggiore rispetto all'esecuzione degli stessi modelli su GPU. Sulla base di questi riscontri, stiamo trasferendo Amazon Rekognition su Inf1, per consentire ai nostri clienti di ottenere risultati più precisi in un tempo inferiore".

Rajneesh Singh, Director, SW Engineering, Amazon Rekognition and Video

Prezzi

* I prezzi sono calcolati per la regione AWS Stati Uniti orientali (Virginia settentrionale). Per quanto riguarda le istanze che non prevedono pagamenti anticipati parziali, i prezzi per le istanze riservate di 1 anno e di 3 anni si applicano alle opzioni di pagamento "parzialmente anticipato" o "nessun anticipo".

Le istanze Inf1 di Amazon EC2 sono disponibili nelle regioni AWS Stati Uniti orientali (Virginia) e Stati Uniti occidentali (Oregon) come istanze on demand, riservate o Spot.

Nozioni di base

Uso di Amazon SageMaker

SageMaker semplifica la compilazione e distribuzione del modello addestrato di machine learning nella produzione sulle istanze Inf1 di Amazon, consentendoti di iniziare a generare previsioni in tempo reale a bassa latenza. AWS Neuron, il compilatore per AWS Inferentia, è integrato con Amazon SageMaker Neo e ti consente di compilare i modelli di machine learning addestrati affinché vengano eseguiti in modo ottimale sulle istanze Inf1. Con SageMaker puoi eseguire agevolmente i tuoi modelli su cluster con dimensionamento automatico di istanze Inf1 che sono distribuite su più zone di disponibilità, per offrire inferenza in tempo reale sia a prestazioni elevate che a disponibilità elevata. Scopri come distribuire su Inf1 utilizzando SageMaker con esempi su GitHub.

Utilizzo di DLAMI

DLAMI fornisce agli esperti di ML e ai ricercatori l'infrastruttura e gli strumenti nel cloud necessari per velocizzare i processi di deep learning su qualsiasi scala. L'SDK AWS Neuron è preinstallato in DLAMI per compilare ed eseguire i modelli ML in modo ottimale su istanze Inf1. Per una guida alle operazioni di base del processo, visita la guida alla selezione delle AMI e ulteriori risorse di deep learning. Consulta la Guida Nozioni di base su AWS DLAMI per ulteriori informazioni su come utilizzare DLAMI con Neuron.

Uso dei container di deep learning

Gli sviluppatori possono ora implementare le istanze Inf1 in Amazon EKS, un servizio Kubernetes interamente gestito, e in Amazon ECS, un servizio di orchestrazione di container interamente gestito di Amazon. Scopri come iniziare a utilizzare Inf1 su Amazon EKS o con Amazon ECS. Ulteriori dettagli su come eseguire container sulle istanze Inf1 sono disponibili alla pagina del tutorial sugli strumenti container Neuron. Neuron è disponibile anche preinstallato nei container AWS per il deep learning.

Blog e articoli

In che modo Amazon Search ha ridotto dell'85% i costi di inferenza ML con AWS Inferentia

a cura di Joao Moura, Jason Carlson, Jaspreet Singh, Shaohui Xi, Shruti Koparkar, Haowei Sun, Weiqi Zhang e Zhuoqi Zhangs, 22/09/2022

High-performance, low-cost machine learning infrastructure is accelerating innovation in the cloud (Il ricorso a infrastrutture di machine learning a basso costo e ad elevate prestazioni sta accelerando il processo di innovazione nel cloud)

a cura di MIT Technology Review Insights, 01/11/2021

Altre risorse