AWS Inferentia

Prestazioni elevate a costi più bassi in Amazon EC2 per l'inferenza di deep learning

Gli acceleratori AWS Inferentia sono progettati da AWS per fornire prestazioni elevate a costi più bassi per le applicazioni di inferenza di deep learning (DL). 

L'acceleratore AWS Inferentia di prima generazione alimenta le istanze Inf1 di Amazon Elastic Compute Cloud (Amazon EC2), che offrono una velocità di trasmissione effettiva fino a 2,3 volte superiore e un costo per inferenza fino al 70% inferiore rispetto alle istanze Amazon EC2 paragonabili. Molti clienti, tra cui Airbnb, Snap, Sprinklr, Money Forward e Amazon Alexa, hanno adottato le istanze Inf1 e si sono resi conto dei vantaggi in termini di prestazioni e costi.

L'acceleratore AWS Inferentia2 offre un notevole salto di qualità in termini di prestazioni e funzionalità rispetto alla prima generazione di AWS Inferentia. Inferentia2 offre una velocità di trasmissione effettiva fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto a Inferentia. Le istanze Inf2 di Amazon EC2 basate su Inferentia2 sono progettate per fornire prestazioni elevate al costo più basso in Amazon EC2 per le applicazioni di inferenza di DL e di IA generativa. Sono ottimizzate per implementare, su scala, modelli sempre più complessi, come i modelli linguistici di grandi dimensioni (LLM) e i trasformatori di visione. Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 e supportano l'inferenza distribuita su scala con connettività ad altissima velocità tra gli acceleratori. Ora puoi implementare in modo efficiente ed economico modelli con centinaia di miliardi di parametri su più acceleratori su istanze Inf2.

AWS Neuron è l'SDK che aiuta gli sviluppatori a implementare i modelli su entrambi gli acceleratori AWS Inferentia e a eseguire le applicazioni di inferenza per l'elaborazione del linguaggio naturale e la comprensione, la traduzione linguistica, il riepilogo del testo, la generazione di video e immagini, il riconoscimento vocale, la personalizzazione, il rilevamento delle frodi e altro ancora. Si integra in modo nativo con i framework di machine learning (ML) più diffusi, come PyTorch e TensorFlow, in modo che tu possa continuare a utilizzare il codice e i flussi di lavoro esistenti ed eseguirli sugli acceleratori Inferentia.

Amazon Alexa adotta AWS Inferentia per tagliare i costi delle inferenze di ML

Vantaggi

Prestazioni e velocità di trasmissione effettiva elevate

Ogni acceleratore Inferentia di prima generazione dispone di quattro NeuronCore di prima generazione con un massimo di 16 acceleratori Inferentia per ciascuna istanza Inf1 di EC2. Ogni acceleratore Inferentia2 dispone di due NeuronCore di seconda generazione con un massimo di 12 acceleratori Inferentia2 per ciascuna istanza Inf2 di EC2. Inferentia2 offre una velocità di trasmissione effettiva fino a 4 volte superiore e prestazioni di calcolo 3 volte superiori rispetto a Inferentia. Ogni acceleratore Inferentia2 supporta fino a 190 tera di operazioni in virgola mobile al secondo (TFLOPS) di prestazioni FP16.

Bassa latenza con memoria a larghezza di banda elevata

Inferentia di prima generazione ha 8 GB di memoria DDR4 per acceleratore e dispone anche di una grande quantità di memoria on-chip. Inferentia2 offre 32 GB di HBM per acceleratore, aumentando la memoria totale di 4 volte e la larghezza di banda della memoria di 10 volte rispetto a Inferentia.

Supporto nativo per framework ML

L'SDK AWS Neuron è integrato in modo nativo con framework di ML diffusi come PyTorch e TensorFlow. Con AWS Neuron, è possibile utilizzare questi framework per implementare in modo ottimale i modelli di DL su entrambi gli acceleratori AWS Inferentia con modifiche minime al codice e senza legami con soluzioni specifiche del fornitore.

Ampia gamma di tipi di dati con lancio automatico

Inferentia di prima generazione supporta tipi di dati FP16, BF16 e INT8. Inferentia2 aggiunge un supporto aggiuntivo per FP32, TF32 e il nuovo tipo di dati FP8 configurabile (cFP8) per offrire agli sviluppatori una maggiore flessibilità, al fine di ottimizzare prestazioni e precisione. AWS Neuron acquisisce i modelli FP32 ad alta precisione e li converte automaticamente in tipi di dati a bassa precisione, ottimizzando la precisione e le prestazioni. Il lancio automatico riduce il time to market eliminando la necessità di riqualificare i prodotti di precisione inferiore.

Funzionalità DL all'avanguardia


Inferentia2 aggiunge ottimizzazioni hardware per dimensioni dinamiche di input e operatori personalizzati scritti in C++. Supporta inoltre l'arrotondamento stocastico, una modalità di arrotondamento probabilistico che consente prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.

Progettato per la sostenibilità


Le istanze Inf2 offrono fino al 50% di prestazioni/watt in più rispetto alle istanze Amazon EC2 paragonabili, poiché, insieme agli acceleratori Inferentia2 sottostanti, sono costruite appositamente per eseguire modelli di DL su scala. Le istanze Inf2 ti consentono di raggiungere i tuoi obiettivi di sostenibilità durante l'implementazione di modelli di dimensioni ultra-grandi.

SDK AWS Neuron

AWS Neuron è l'SDK che aiuta gli sviluppatori a implementare i modelli su entrambi gli acceleratori AWS Inferentia e ad addestrarli sull'acceleratore AWS Trainium. Si integra in modo nativo con i framework di ML più diffusi, come PyTorch e TensorFlow, in modo che tu possa continuare a utilizzare i flussi di lavoro esistenti ed eseguirli sugli acceleratori Inferentia con poche righe di codice.

Ulteriori informazioni » 

AWS Trainium

AWS Trainium è un acceleratore di addestramento di DL progettato da AWS che offre addestramento di DL ad alte prestazioni e costi contenuti su AWS. Le istanze Trn1 di Amazon EC2, alimentate da AWS Trainium, offrono le massime prestazioni per l'addestramento del deep learning dei più diffusi modelli di elaborazione del linguaggio naturale su AWS. Le istanze Trn1 offrono fino al 50% di risparmio sui costi di addestramento rispetto a istanze Amazon EC2 paragonabili.

Ulteriori informazioni » 

Testimonianze dei clienti

Qualtrics

Qualtrics progetta e sviluppa software per la gestione delle esperienze.

"In Qualtrics, il nostro obiettivo è definire una tecnologia che colmi le lacune di esperienza per clienti, dipendenti, marchi e prodotti. A tal fine, stiamo sviluppando modelli di deep learning multi-task e multi-modali complessi per lanciare nuove funzionalità, come la classificazione dei testi, il tagging delle sequenze, l'analisi del discorso, l'estrazione di frasi chiave, l'estrazione di argomenti, il clustering e la comprensione delle conversazioni end-to-end. Con l'utilizzo di questi modelli più complessi in un numero maggiore di applicazioni, il volume dei dati non strutturati aumenta e abbiamo bisogno di soluzioni ottimizzate per l'inferenza con migliori prestazioni in grado di soddisfare tali richieste, come le istanze Inf2, per offrire esperienze soddisfacenti ai nostri clienti. Siamo entusiasti delle nuove istanze Inf2, perché non solo ci permettono di raggiungere una velocità di trasmissione effettiva più elevata, riducendo drasticamente la latenza, ma introducono anche funzionalità come l'inferenza distribuita e il supporto avanzato per la forma dinamica degli input, che ci aiutano a dimensionare per soddisfare le esigenze di implementazione mentre ci spingiamo verso modelli più grandi e complessi".

Aaron Colak, Head of Core Machine Learning, Qualtrics
Print

Finch Computing è un'azienda di tecnologia del linguaggio naturale che fornisce applicazioni di intelligenza artificiale a clienti collegati a enti pubblici, servizi finanziari e integratori di dati.

"Per soddisfare le esigenze dei nostri clienti in termini di NLP in tempo reale, sviluppiamo modelli DL all'avanguardia che si adattano a grandi carichi di lavoro di produzione. Dobbiamo fornire transazioni a bassa latenza e raggiungere una velocità di trasmissione effettiva elevata per elaborare feed di dati globali. Abbiamo già migrato molti carichi di lavoro di produzione su istanze Inf1 e abbiamo ottenuto una riduzione dei costi dell'80% rispetto alle GPU. Ora stiamo sviluppando modelli più grandi e complessi che consentono di ottenere un significato più profondo e dettagliato dal testo scritto. Molti dei nostri clienti hanno bisogno di accedere a queste informazioni in tempo reale e le prestazioni delle istanze Inf2 ci aiutano a garantire una latenza inferiore e una velocità di trasmissione effettiva superiore rispetto alle istanze Inf1. Grazie ai miglioramenti delle prestazioni di Inf2 e alle nuove funzionalità di Inf2, come il supporto per le dimensioni dinamiche degli input, stiamo migliorando la nostra efficienza in termini di costi, migliorando l'esperienza dei clienti in tempo reale e aiutando i nostri clienti a ricavare nuove informazioni dai loro dati".

Franz Weckesser, Chief Architect, Finch Computing
Finch Computing
"Avvisiamo su molti tipi di eventi in tutto il mondo in molte lingue, in diversi formati (immagini, video, audio, sensori di testo, combinazioni di tutti questi tipi) da centinaia di migliaia di fonti. L'ottimizzazione della velocità e dei costi, data tale scalabilità, è assolutamente fondamentale per la nostra attività. Con AWS Inferentia, abbiamo ridotto la latenza del modello e ottenuto una velocità di trasmissione effettiva per dollaro fino a 9 volte superiore. Questo ci ha permesso di aumentare la precisione dei modelli e ampliare le capacità della nostra piattaforma implementando modelli DL più sofisticati ed elaborando un volume di dati 5 volte superiore, mantenendo i costi sotto controllo".

Alex Jaimes, Chief Scientist and Senior Vice President of AI, Dataminr
airbnb-case-study

Fondato nel 2008, Airbnb con sede a San Francisco è un marketplace di comunità con oltre 4 milioni di host che hanno accolto più di 900 milioni di ospiti in arrivo in quasi tutti i paesi del mondo.

"La Community Support Platform di Airbnb offre esperienze di servizio intelligenti, scalabili ed eccezionali alla nostra community di milioni di ospiti e host in tutto il mondo. Siamo costantemente alla ricerca di modi per migliorare le prestazioni dei nostri modelli di elaborazione del linguaggio naturale utilizzati dalle nostre applicazioni di chatbot di supporto. Con le istanze Inf1 di Amazon EC2 basate su AWS Inferentia, osserviamo un miglioramento di 2 volte della velocità di trasmissione effettiva rispetto alle istanze basate su GPU per i nostri modelli BERT basati su PyTorch. Non vediamo l'ora di sfruttare le istanze Inf1 per altri modelli e casi d'uso in futuro".

Bo Zeng, Engineering Manager, Airbnb
Snap Inc
"Integriamo il machine learning (ML) in molti aspetti di Snapchat, ed esplorare le opportunità di innovazione in questo campo è una delle nostre massime priorità. Dopo avere sentito parlare di Inferentia, abbiamo iniziato a collaborare con AWS per adottare le istanze Inf1/Inferentia per aiutarci con la distribuzione del ML, anche sotto il profilo di costi e prestazioni. Siamo partiti dai nostri modelli di raccomandazione e progettiamo di adottare le istanze Inf1 per altri modelli in futuro".

Nima Khajehnouri, VP Engineering, Snap Inc.
Sprinklr
"La piattaforma unificata per la gestione dell'esperienza cliente (Unified-CXM) di Sprinklr, guidata dall'intelligenza artificiale, permette alle aziende di raccogliere e tradurre i feedback in tempo reale dei clienti provenienti da canali multipli e trasformarli in informazioni dettagliate da utilizzare per le proprie operazioni: il risultato è una risoluzione dei problemi proattiva, uno sviluppo dei prodotti migliorato, un marketing dei contenuti più puntuale, una migliore assistenza al cliente e tanto altro. Con Amazon EC2 Inf1, siamo stati in grado di migliorare in maniera significativa le prestazioni di uno dei nostri modelli di elaborazione del linguaggio naturale (NLP), nonché di migliorare le prestazioni di uno dei nostri modelli di visione artificiale. Non vediamo l'ora di continuare a utilizzare Amazon EC2 Inf1, in modo da poter servire al meglio i nostri clienti in tutto il mondo".

Vasant Srinivasan, Senior Vice President of Product Engineering, Sprinklr
Autodesk
"Autodesk sta sviluppando la tecnologia cognitiva del nostro assistente virtuale basato su IA, Autodesk Virtual Agent (AVA), utilizzando Inferentia. AVA risponde a oltre 100.000 domande dei clienti ogni mese utilizzando tecniche di riconoscimento del linguaggio naturale (NLU) e deep learning per estrarre il contesto, l'intento e il significato delle richieste. Sfruttando Inferentia, siamo riusciti a ottenere una velocità di trasmissione effettiva di 4,9 volte superiore rispetto a G4dn per i nostri modelli di NLU, e progettiamo di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia."

Binghui Ouyang, Sr. Data Scientist, Autodesk
Screening Eagle
"L'uso del ground penetrating radar e l'individuazione di difetti visivi sono in genere di competenza di rilevatori esperti. Un'architettura basata su microservizi AWS ci consente di elaborare i video acquisiti dai veicoli di ispezione automatizzati e ispettori. Migrando i nostri modelli costruiti internamente dalle istanze tradizionali basate su GPU a Inferentia, siamo riusciti a ridurre i costi del 50%. Inoltre, abbiamo potuto notare un aumento delle prestazioni confrontando i tempi con un'istanza con GPU G4dn. Il nostro team è impaziente di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia".

Jesús Hormigo, Chief of Cloud and AI Officer, Screening Eagle Technologies
NTT PC

NTT PC Communications è un fornitore di servizi di rete e soluzioni di comunicazione in Giappone, leader delle telecomunicazioni nell'introduzione di nuovi prodotti innovativi nel mercato delle tecnologie dell'informazione e della comunicazione.

"NTT PC ha sviluppato "AnyMotion", un servizio di piattaforma API di analisi del movimento basato su modelli avanzati di machine learning per la stima della postura. Abbiamo distribuito la nostra piattaforma AnyMotion su istanze Amazon EC2 Inf1 utilizzando Amazon ECS per un servizio di orchestrazione dei container completamente gestito. Implementando i propri container AnyMotion su Amazon EC2 Inf1, abbiamo registrato un aumento di 4,5 volte, una latenza di inferenza inferiore del 25% e un costo inferiore del 90% rispetto alle istanze EC2 basate su GPU della generazione attuale. Questi risultati superiori aiuteranno a migliorare la qualità del servizio AnyMotion su larga scala".

Toshiki Yanagisawa, Software Engineer, NTT PC Communications Inc.
Anthem

Anthem è un'azienda statunitense leader del settore dell'assistenza sanitaria che risponde alle esigenze mediche di oltre 40 milioni di membri in una decina di stati. 

"Il mercato delle piattaforme sanitarie digitali cresce a un ritmo impressionante. Centralizzare l'intelligence del mercato è un compito impegnativo per via della grande quantità di dati sulle opinioni dei clienti e della loro natura destrutturata. La nostra applicazione automatizza la generazione di analisi concrete a partire dalle opinioni dei clienti tramite modelli di linguaggio naturale di deep learning (trasformatori). Inoltre, è a elevata intensità di calcolo e deve essere distribuita in modo altamente performante. Abbiamo effettuato la distribuzione lineare del nostro carico di lavoro di inferenza di deep learning nelle istanze Inf1 di Amazon EC2, basate sul processore AWS Inferentia. Le nuove istanze Inf1 offrono il doppio della velocità di trasmissione effettiva alle istanze basate su GPU e consentono di ottimizzare i carichi di lavoro di inferenza".

Numan Laanait and Miro Mihaylov, PhDs, Principal AI/Data Scientists, Anthem

 

Condé Nast
"Il portafoglio globale di Condé Nast comprende oltre 20 marchi di servizi multimediali leader del settore, tra cui Wired, Vogue e Vanity Fair. In poche settimane, il nostro team è stato in grado di integrare il nostro motore di raccomandazione con i chip AWS Inferentia. Questa integrazione consente più ottimizzazioni di runtime per modelli in linguaggio naturale all'avanguardia sulle istanze Inf1 di SageMaker. In questo modo, abbiamo riscontrato una riduzione del 72% dei costi rispetto alle istanze GPU distribuite in precedenza".

Paul Fryzel, Principal Engineer, AI Infrastructure, Condé Nast
Ciao
"Ciao trasforma le telecamere di sicurezza convenzionali in telecamere di analisi ad alte prestazioni equivalenti alla capacità dell'occhio umano. La nostra applicazione promuove la prevenzione dei disastri, monitorando le condizioni ambientali tramite soluzioni AI basate su cloud e sviluppate per telecamere, in modo da inviare avvisi prima che si verifichi un disastro. Tali avvisi consentono di reagire alla situazione critica in anticipo. Inoltre, sulla base del rilevamento di oggetti e dei video dei negozi di mattoni e malta possiamo fornire al relativo personale informazioni dettagliate sulla stima del numero di clienti in arrivo. Da punto di vista commerciale, Ciao Camera ha adottato le istanze Inf1 basate su AWS Inferentia con un prezzo migliore del 40% rispetto alle istanze G4dn con YOLOv4. Non vediamo l'ora che più servizi basati su istanze Inf1 sfruttino la loro significativa efficienza in termini di costi".

Shinji Matsumoto, Software Engineer, Ciao Inc.
欧文ベーシックロゴ(The Asahi Shimbun)
"The Asahi Shimbun è uno dei quotidiani più popolari in Giappone. Media Lab, uno dei reparti della nostra azienda, ha le missioni di ricercare la tecnologia più recente, specie l'IA, e mettere in connessione tecnologie all'avanguardia per nuove attività. Con il lancio delle istanze Inf1 di Amazon EC2 basate su AWS Inferentia a Tokyo, abbiamo testato la nostra applicazione AI di sintesi testuale basata su PyTorch su queste istanze. L'applicazione elabora una grande quantità di testo e genera titoli e frasi di sintesi grazie all'addestramento su articoli degli ultimi 30 anni. Grazie all'uso di Inferentia, abbiamo ridotto i costi di un ordine di grandezza rispetto alle istanze basate su CPU. La drastica riduzione dei costi ci consentirà di distribuire i nostri modelli più complessi su larga scala, cosa che in precedenza avevamo considerato economicamente non sostenibile".

Hideaki Tamori, PhD, Senior Administrator, Media Lab, The Asahi Shimbun Company
CS Disco
"CS Disco sta reinventando la tecnologia legale come fornitore leader di soluzioni di intelligenza artificiale per l'e-discovery sviluppate da avvocati e destinate agli stessi. Disco AI accelera l'ingrato compito di analizzare in dettaglio terabyte di dati, velocizzando i tempi di revisione e migliorandone l'accuratezza grazie a modelli complessi di elaborazione del linguaggio naturale (NLP), che sono computazionalmente costosi e proibitivi. L'azienda ha scoperto che le istanze Inf1 basate su AWS Inferentia riducono il costo dell'inferenza in Disco AI di almeno il 35% rispetto alle istanze GPU odierne. Sulla base di questa esperienza positiva con le istanze di Inf1, CS Disco esplorerà le opportunità di migrare a Inferentia".

Alan Lockett, Sr. Director of Research, CS Disco
Talroo
"A Talroo, forniamo ai nostri clienti una piattaforma basata su dati che consente loro di attrarre candidati esclusivi per i posti di lavoro in vista delle assunzioni. Siamo costantemente alla ricerca di nuove tecnologie per garantire la migliore offerta di prodotti e servizi ai nostri clienti. Grazie all'uso di Inferentia estraiamo approfondimenti da un corpus di dati testuali per potenziare la nostra tecnologia search-and-match alimentata da IA. Talroo sfrutta le istanze Amazon EC2 Inf1 per creare modelli NLU con velocità di trasmissione effettiva elevata con SageMaker. Il testing iniziale di Talroo mostra che le istanze Inf1 di Amazon EC2 assicurano una latenza di inferenza del 40% inferiore e il doppio della velocità di trasmissione effettiva rispetto alle istanze basate su GPU G4dn. Sulla base di questi risultati, Talroo non vede l'ora di utilizzare le istanze Inf1 Amazon EC2 come parte della sua infrastruttura AWS".

Janet Hu, Software Engineer, Talroo
DMP
"Digital Media Professionals (DMP) visualizza il futuro con una piattaforma ZIA™ basata sull'IA. Le tecnologie di classificazione per una visione computerizzata ed efficiente di DMP consentono di ottenere approfondimenti su grandi quantità di dati di immagine in tempo reale, tra cui l'osservazione delle condizioni e la prevenzione di crimini e incidenti. Abbiamo riscontrato che i nostri modelli di segmentazione delle immagini vengono eseguiti quattro volte più rapidamente nelle istanze Inf1 basate su AWS Inferentia rispetto alle istanze G4 basate su GPU. Grazie alla velocità di trasmissione effettiva più elevata e alla riduzione dei costi, Inferentia ci consente di distribuire tutti i carichi di lavoro IA, come le applicazioni per telecamere da cruscotto, su vasta scala".

Hiroyuki Umeda, Director & General Manager, Sales & Marketing Group, Digital Media Professionals
Hotpot.ai

Hotpot.ai consente ai non designer di creare grafiche accattivanti e aiuta i designer professionisti ad automatizzare le attività routinarie. 

"Dato che il machine learning è alla base della nostra strategia, siamo entusiasti di provare le istanze Inf1 basate su AWS Inferentia. Le istanze Inf1 sono facili da integrare alla nostra pipeline di ricerca e sviluppo. Un aspetto ancora più importante sta nel fatto che abbiamo riscontrato guadagni in termini di prestazioni considerevoli rispetto alle istanze G4dn basate su GPU. Con il nostro primo modello, abbiamo ottenuto prestazioni maggiori del 45% per le istanze Inf1, dimezzando i costi per inferenza. Il nostro intento è collaborare a stretto contatto con il team AWS per ottenere altri modelli e trasferire gran parte della nostra infrastruttura di inferenza di machine learning ad AWS Inferentia".

Clarence Hu, Founder, Hotpot.ai
SkyWatch
"SkyWatch elabora centinaia di migliaia di miliardi di pixel di dati di osservazione terrestre, acquisiti ogni giorno dallo spazio. Adottare le nuove istanze Inf1 basate su AWS Inferentia che utilizzano Amazon SageMaker per il rilevamento del cloud in tempo reale e per i punteggi della qualità dell'immagine è stato rapido e semplice. Si è trattato semplicemente di cambiare il tipo di istanza nella nostra configurazione della distribuzione. Cambiare tipi di istanze in Inf1 basati su Inferentia ci ha consentito di migliorare le prestazioni del 40% e di ridurre i costi complessivi del 23%. È una grande vittoria. Ci ha consentito di ridurre i nostri costi di esercizio complessivi pur continuando a fornire immagini satellitari di alta qualità ai nostri clienti, con spese di ingegnerizzazione minime. Non vediamo l'ora di eseguire la transizione di tutti i nostri endpoint di inferenza e i nostri processi ML in batch per utilizzare le istanze Inf1 e migliorare ulteriormente l'affidabilità dei dati e l'esperienza dei clienti".

Adler Santos, Engineering Manager, SkyWatch
Money Forward, Inc.

Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria aperta ed equa. Nell'ambito di tale piattaforma, HiTTO Inc., un'azienda del gruppo Money Forward, offre un servizio di chatbot IA, che utilizza modelli di NLP su misura per gestire le diverse esigenze dei clienti aziendali.

"La migrazione del nostro servizio di chatbot IA alle istanze Inf1 di Amazon EC2 è stata semplice. Abbiamo completato la migrazione entro due mesi e lanciato un servizio su larga scala sulle istanze Inf1 utilizzando Amazon ECS. Siamo riusciti a ridurre la nostra latenza di inferenza del 97% e i nostri costi di inferenza di oltre il 50% (rispetto a istanze basate su GPU paragonabili), servendo più modelli per ogni istanza Inf1. Siamo impazienti di eseguire altri carichi di lavoro sulle istanze Inf1 basate su Inferentia".

Kento Adachi, Technical lead, CTO office, Money Forward Inc.

Servizi Amazon che utilizzano AWS Inferentia

Amazon Advertising

Amazon Advertising aiuta le aziende di qualsiasi dimensione a connettersi con i clienti in ogni fase dell'esperienza di acquisto. Ogni giorno milioni di annunci, inclusi testi e immagini, vengono moderati, classificati e serviti per un'esperienza cliente ottimale.

"Per l'elaborazione dei nostri annunci testuali implementiamo modelli BERT basati su PyTorch a livello globale su istanze Inf1 basate su AWS Inferentia. Passando dalle GPU a Inferentia, siamo stati in grado di ridurre i nostri costi del 69% con prestazioni comparabili. Compilare e testare i nostri modelli per AWS Inferentia ha richiesto meno di tre settimane. L'utilizzo di Amazon SageMaker per implementare i nostri modelli sulle istanze Inf1 ha fatto sì che la nostra implementazione fosse scalabile e facile da gestire. Quando ho analizzato per la prima volta i modelli compilati, le prestazioni con AWS Inferentia sono state talmente impressionanti che ho dovuto rieseguire i benchmark per assicurarmi che fossero corretti! In futuro vogliamo migrare i nostri modelli di elaborazione degli annunci con immagini a Inferentia. Abbiamo già valutato una latenza inferiore del 30% e un risparmio sui costi del 71% rispetto a istanze comparabili basate su GPU per questi modelli."

Yashal Kanungo, Applied Scientist, Amazon Advertising

Leggi il blog sulle ultime novità »
Alexa 8up logo
"L'intelligenza basata su IA e ML di Amazon Alexa, con tecnologia AWS, è disponibile oggi su oltre 100 milioni di dispositivi e la nostra promessa ai clienti è che Alexa diventi sempre più intelligente, che ami conversare, che sia più proattiva e persino più gradevole. Rispettare questa promessa richiede miglioramenti continui nei tempi di risposta e nei costi dell'infrastruttura di ML, ed è per questo che siamo entusiasti di utilizzare Inf1 di Amazon EC2 per abbassare la latenza di inferenza e il costo per inferenza della sintesi vocale di Alexa. Con Inf1 di Amazon EC2, possiamo migliorare ulteriormente il servizio per le decine di milioni di clienti che utilizzano Alexa ogni mese".

Tom Taylor, Senior Vice President, Amazon Alexa
 
"Continuiamo a innovare per migliorare ulteriormente l'esperienza dei nostri clienti e per ridurre i costi delle infrastrutture. Spostando i nostri carichi di lavoro di web-based question answering (WBQA) dalle istanze P3 basate su GPU alle istanze Inf1 basate su AWS Inferentia, non solo abbiamo ridotto i costi di inferenza del 60%, ma abbiamo anche migliorato la latenza end-to-end di oltre il 40%, contribuendo a migliorare l'esperienza di D&R dei clienti con Alexa. L'utilizzo di Amazon SageMaker per il nostro modello basato su TensorFlow ha reso il processo di passaggio alle istanze Inf1 semplice e facile da gestire. Ora stiamo usando istanze Inf1 a livello globale per eseguire questi carichi di lavoro WBQA e stiamo ottimizzando le loro prestazioni per AWS Inferentia per ridurre ulteriormente i costi e la latenza".

Eric Lind, Software Development Engineer, Alexa AI
Amazon Alexa
"Amazon Prime Video utilizza modelli ML di visione artificiale per analizzare la qualità video degli eventi dal vivo, al fine di garantire un'esperienza di visione ottimale per gli iscritti a Prime Video. Abbiamo distribuito i nostri modelli ML di classificazione delle immagini su istanze Inf1 EC2 e siamo riusciti a ottenere un miglioramento delle prestazioni di 4 volte e un risparmio fino al 40% sui costi. Stiamo ora cercando di sfruttare questi risparmi sui costi per innovare e costruire modelli avanzati in grado di rilevare difetti più complessi, come le lacune di sincronizzazione tra i file audio e video, per offrire un'esperienza di visione migliore agli iscritti a Prime Video".

Victor Antonino, Solutions Architect, Amazon Prime Video
Amazon Alexa
"Amazon Rekognition è un'applicazione di analisi di video e immagini semplice e intuitiva che aiuta i clienti a identificare oggetti, persone, testi e attività. Amazon Rekognition richiede un'infrastruttura di deep learning ad alte prestazioni in grado di analizzare quotidianamente miliardi di immagini e video per i nostri consumatori. Con le istanze Inf1 basate su AWS Inferentia, l'esecuzione di modelli di Amazon Rekognition, come ad esempio la classificazione degli oggetti, ha riscontrato una latenza di 8 volte inferiore e una velocità di trasmissione effettiva di 2 volte maggiore rispetto all'esecuzione degli stessi modelli su GPU. Sulla base di questi riscontri, stiamo trasferendo Amazon Rekognition su Inf1, per consentire ai nostri clienti di ottenere risultati più precisi in un tempo inferiore".

Rajneesh Singh, Director, SW Engineering, Amazon Rekognition and Video

Video

AWS re:Invent 2019: Watch Andy Jassy talk about silicon investment and Inf1
AWS re:Invent 2019: ML Inference with new Amazon EC2 Inf1 Instances, featuring Amazon Alexa
Lower the Cost of Running ML Applications with New Amazon EC2 Inf1 Instances - AWS Online Tech Talks
Registrati per creare un account gratuito

Ottieni l'accesso immediato al piano gratuito di AWS. 

Registrati 
Inizia subito nella console

Inizia con il ML nella Console di gestione AWS

Accedi