In che modo le startup riducono i costi di IA/ML e innovano con AWS Inferentia

Com'era questo contenuto?

Se la tua startup si occupa di machine learning (ML), probabilmente sei consapevole delle sfide che derivano dall'addestramento e dall'implementazione di modelli di ML nelle tue applicazioni, un processo definito come "fase di produzione ML". Tale processo è complicato per le startup poiché, mentre sono impegnate a realizzare una realtà competitiva e sostenibile, devono contemporaneamente lavorare per ottenere prestazioni applicative elevate, creare un'esperienza utente piacevole e gestire i costi in modo efficiente.

Le startup che devono scegliere l'infrastruttura adeguata per i propri carichi di lavoro di ML dovrebbero considerare come gestire al meglio la fase di addestramento e di inferenza dei modelli. L'addestramento consiste nel processo di creazione e ottimizzazione di un modello per una specifica attività, attraverso l'apprendimento dai dati disponibili. L'inferenza, invece, consiste nell'utilizzo di tale modello per effettuare previsioni basate su nuovi dati di input. Negli ultimi cinque anni, AWS ha investito in acceleratori appositamente progettati per migliorare le prestazioni e i costi di elaborazione dei carichi di lavoro di ML. In particolare, gli acceleratori AWS Trainium e AWS Inferentia offrono il costo più basso per l'addestramento dei modelli e l'esecuzione dell'inferenza nel cloud.

Le istanze Inf1 di Amazon EC2 basate su AWS Inferentia sono ideali per le startup che desiderano eseguire applicazioni di inferenza ML come:

  • Ricerca
  • Motori di raccomandazione
  • Visione artificiale
  • Riconoscimento vocale
  • Elaborazione del linguaggio naturale
  • Personalizzazione
  • Rilevamento di attività fraudolente

Per addestrare e implementare modelli più complessi come i modelli di IA generativa (modelli linguistici di grandi dimensioni e modelli di diffusione), la tua startup potrebbe prendere in considerazione le nuove istanze Amazon EC2 Trn1 basate su AWS Trainium e le istanze Amazon EC2 Inf2 basate su AWS Inferentia2.

In questo post, tratteremo i casi d'uso di due startup, Actuate e Finch Computing, esaminando il successo che hanno riscontrato con le istanze Inf1 basate su Inferentia.

Actuate | Rilevamento delle minacce mediante analisi video con IA in tempo reale | Risparmio del 91% sui costi di inferenza

Caso d'uso: Actuate fornisce una piattaforma Software-as-a-Service (SaaS) pensata per convertire qualsiasi telecamera in un dispositivo intelligente in grado di rilevare le minacce in tempo reale per segnalare istantaneamente e accuratamente la presenza di armi, intrusi, folle di persone e vagabondaggio. La piattaforma software di Actuate si integra nei sistemi di videocamere esistenti per creare sistemi di sicurezza avanzati. Grazie al software di rilevamento delle minacce basato sull'intelligenza artificiale (IA) di Actuate, i clienti ricevono avvisi in tempo reale in pochi secondi e possono agire rapidamente per proteggere i propri locali.

Opportunità: Actuate aveva bisogno di garantire un'elevata precisione di rilevamento. Ciò significava riaddestrare costantemente i propri modelli utilizzando più dati e questa operazione richiedeva tempo prezioso da parte degli sviluppatori. Inoltre, poiché aveva bisogno di tempi di risposta rapidi, dipendeva da un'infrastruttura basata su GPU che su larga scala era proibitiva in termini di costi. Essendo una startup con risorse limitate, Actuate aveva bisogno di ridurre al minimo i costi di inferenza e il tempo di sviluppo, in modo da poter dedicare le risorse recuperate alla creazione di funzionalità migliori per offrire maggiore valore ai propri utenti finali.

Soluzione e impatto: innanzitutto, Actuate ha implementato Amazon SageMaker per addestrare e implementare i propri modelli. Questo ha consentito di ridurre il tempo di implementazione (misurato dai dati etichettati al modello implementato) da 4 settimane a 4 minuti. Nella fase successiva, ha migrato i modelli di ML dell'intera suite di prodotti da istanze basate su GPU a istanze Inf1 basate su AWS Inferentia. Questa migrazione ha richiesto un coinvolgimento minimo degli sviluppatori, in quanto non è stato necessario riscrivere il codice dell'applicazione ed è stato sufficiente modificarne solo poche righe. Grazie ad AWS Inferentia, Actuate ha potuto immediatamente ottenere risparmi fino al 70% sui costi. Con un'ulteriore ottimizzazione, ha ridotto del 91% i costi di inferenza. Ciò ha permesso all'azienda di utilizzare le proprie risorse per concentrarsi sul miglioramento dell'esperienza utente e sulla ricerca fondamentale dell'IA.

Risorse: per ulteriori informazioni sul caso d'uso di Actuate, puoi guardare la relativa presentazione in occasione del re:Invent. Per iniziare con un modello di visione artificiale sulle istanze Inf1, visita la pagina della documentazione di Neuron e scopri questo notebook per il modello Yolov5 su GitHub.

Finch Computing | Approfondimenti in tempo reale utilizzando l'elaborazione del linguaggio naturale sugli asset informativi | Risparmio dell'80% sui costi di inferenza

Caso d'uso: Finch (una combinazione delle parole "Find" e "Search", ossia cerca e trova) Computing offre i propri servizi a società di media e aggregatori di dati, organizzazioni governative e di intelligence statunitensi, così come società di servizi finanziari. I suoi prodotti utilizzano algoritmi di elaborazione del linguaggio naturale per fornire informazioni fruibili su enormi volumi di dati di testo di una varietà di risorse informative. Un esempio è l'assegnazione del sentiment, che implica l'identificazione di un contenuto come positivo, negativo o neutro e la restituzione di un punteggio numerico indicativo del livello e del tipo di sentiment.

Opportunità: dopo aver aggiunto al proprio prodotto il supporto per la lingua olandese, Finch Computing desiderava dimensionare ulteriormente per supportare il francese, il tedesco, lo spagnolo e altre lingue. Ciò avrebbe aiutato i clienti con i contenuti in queste lingue e avrebbe attirato anche nuovi clienti in tutta Europa. Finch Computing aveva sviluppato e integrato con successo i propri modelli di traduzione basati su deep learning utilizzando GPU, ma questo approccio si rivelava costoso per supportare lingue aggiuntive. Pertanto, l'azienda stava cercando una soluzione alternativa che le permettesse di creare ed eseguire nuovi modelli linguistici in modo rapido ed economico.

Soluzione e impatto: in pochi mesi, Finch Computing ha migrato i propri modelli di traduzione ad alto carico di calcolo da istanze basate su GPU a istanze Amazon EC2 Inf1 basate su AWS Inferentia. Le istanze Inf1 hanno offerto la stessa velocità di trasmissione effettiva delle GPU, ma hanno aiutato Finch a risparmiare oltre l'80% sui costi. Finch Computing non solo ha supportato le tre lingue aggiuntive, ma ha anche attirato nuovi clienti. Attualmente, tutti i modelli di traduzione funzionano tramite Inf1 e Finch Computing ha intenzione di valutare le istanze Inf2 per nuovi casi d'uso di IA generativa, come il riassunto di testi e la generazione di titoli.

Risorse: per ulteriori informazioni sul caso d'uso di Finch Computing, puoi leggere questo caso di studio. Per iniziare a sviluppare un modello di traduzione, visita la pagina della documentazione di Neuron e guarda questo notebook per il modello MarianMT su GitHub.

AWS Inferentia per inferenze ML convenienti e ad alte prestazioni

In questo post del blog, abbiamo esaminato due startup che hanno implementato modelli di ML in produzione su AWS Inferentia in modo conveniente, ottenendo al contempo una velocità di trasmissione effettiva elevata e una bassa latenza.

Desideri iniziare a utilizzare le istanze Inf1? Puoi usare AWS Neuron SDK, che si integra in modo nativo con i framework ML più diffusi come PyTorch e TensorFlow. Per scoprire come fare, visita la pagina della documentazione di Neuron ed esplora questo repository di modelli di esempio su GitHub.

Scopri come altre startup di IA/ML stanno creando e scalando su AWS 🚀:

Shruti Koparkar

Shruti Koparkar

Shruti Koparkar è Senior Product Marketing Manager presso AWS. Aiuta i clienti a esplorare, valutare e adottare l'infrastruttura di computing accelerato Amazon EC2 per le loro esigenze di machine learning.

Com'era questo contenuto?