Testimonianze dei clienti/Software e Internet/Stati Uniti
Perplexity accelera del 40% l'addestramento dei modelli di fondazione grazie ad Amazon SageMaker HyperPod
Scopri come la startup di IA generativa Perplexity esegue l'addestramento dei modelli in modo più rapido ed efficiente utilizzando Amazon SageMaker HyperPod.
Riduzione fino al 40%
del tempo di addestramento
Oltre 100.000 query all'ora
supportate
Mantiene
la latenza minima
Ottimizza
l'esperienza utente
Panoramica
In quanto forza trasformativa, l'intelligenza artificiale (IA) generativa comprende algoritmi di machine learning (ML) in grado di generare nuovi contenuti, dalle immagini al testo, imparando da grandi quantità di dati. Perplexity, un'azienda che sta attualmente costruendo uno dei primi motori di risposta conversazionali al mondo, sta utilizzando la potenza dell'IA generativa per aiutare gli utenti a trovare informazioni pertinenti.
Di fronte alla sfida di ottimizzare i suoi modelli per l'accuratezza e la precisione, Perplexity aveva bisogno di una soluzione robusta in grado di gestire i suoi requisiti computazionali. Con l'obiettivo di migliorare l'esperienza utente, Perplexity si è rivolta ad Amazon Web Services (AWS). Utilizzando l'infrastruttura di ML avanzata, le librerie di addestramento e gli strumenti di inferenza di AWS, Perplexity ha ottenuto la flessibilità, le prestazioni e l'efficienza necessarie per servire una base di utenti globale su larga scala.
Opportunità | Uso dei servizi AWS per ottimizzare l'esperienza utente
A differenza dei motori di ricerca tradizionali, che spesso promuovono annunci e parole chiave specifiche rispetto ai risultati pertinenti, la soluzione di Perplexity è ottimizzata per connettere gli utenti alle informazioni che cercano. Circa dieci milioni di utenti attivi ogni mese si affidano a Perplexity per imparare nuovi concetti, risolvere sfide e trovare risposte.
"Utilizzando modelli linguistici di grandi dimensioni, possiamo riunire le capacità di comprensione e ragionamento del linguaggio umano in un unico modello. Questo, unito ai dati su Internet, ci ha aiutato a costruire il nostro motore di risposta”, afferma Aravind Srinivas, CEO e cofounder di Perplexity. "In sostanza, abbiamo orchestrato insieme un indice di ricerca tradizionale (motore di dati) e un motore di ragionamento (modello linguistico di grandi dimensioni) per creare il primo motore di risposta conversazionale al mondo".
Dal suo lancio nel 2022, Perplexity ha utilizzato servizi AWS di base come Amazon Elastic Compute Cloud (Amazon EC2), che fornisce capacità di calcolo sicura e ridimensionabile praticamente per qualsiasi carico di lavoro, per potenziare i componenti di backend, front-end e di ricerca del suo prodotto. Man mano che Perplexity maturava e il suo numero di modelli di ML cresceva, aveva bisogno di un'enorme potenza di calcolo per servire gli utenti.
Perplexity ha parlato con gli esperti di AWS e ha appreso che Amazon SageMaker HyperPod, un'infrastruttura appositamente creata per l'addestramento distribuito su larga scala, poteva soddisfare le sue esigenze di addestramento di modelli su larga scala. Amazon SageMaker HyperPod è preconfigurato con le librerie di addestramento distribuite di Amazon SageMaker ottimizzate per eseguire in parallelo dati personalizzati altamente scalabili ed economici e modellare processi di addestramento di deep learning paralleli a velocità di interconnessione superiori a 1.600 Gbps. Amazon SageMaker HyperPod previene inoltre le interruzioni dell'addestramento del modello di fondazione salvando periodicamente i checkpoint. Quando si verifica un guasto hardware durante l'addestramento, il servizio AWS rileva automaticamente il guasto, ripara o sostituisce l'istanza difettosa e riprende l'addestramento dall'ultimo checkpoint salvato. Ciò facilita l'addestramento ininterrotto del modello per settimane o mesi in un ambiente distribuito.
In AWS, il potere è nelle mani del cliente. Non ci sono requisiti per quanto riguarda i servizi da utilizzare".
Aravind Srinivas
CEO e Cofounder di Perplexity
Soluzione | Riduzione dei tempi di addestramento dei modelli fino al 40% con Amazon SageMaker HyperPod
AWS ha offerto a Perplexity una prova di un mese per dimostrare le capacità di addestramento distribuito, durante la quale l'azienda ha scoperto i vantaggi dell'utilizzo di AWS. Ad esempio, Perplexity ha ottenuto una maggiore flessibilità nell'allocazione delle risorse e ha iniziato a utilizzare diversi tipi di istanze Amazon EC2 e GPU personalizzate per attività specifiche.
Per addestrare i modelli ML, Perplexity richiede grandi quantità di memoria in modo da poter eseguire enormi quantità di dati e memorizzare diversi gradienti. Ha quindi scelto le istanze P4de di Amazon EC2 che forniscono le massime prestazioni per l'addestramento ML e le applicazioni di calcolo ad alte prestazioni, per eseguire processi di addestramento, soddisfacendo i requisiti di memoria e larghezza di banda. Grazie ad Amazon SageMaker HyperPod, Perplexity trasferisce i dati tra diverse GPU molto più velocemente, il che ha ridotto i tempi di addestramento dei modelli di ML fino al 40%.
"Le librerie parallele integrate di dati e modelli di Amazon SageMaker HyperPod ci hanno aiutato a ottimizzare i tempi di addestramento sulle GPU e a raddoppiarne il throughput", ha affermato Srinivas. "Di conseguenza, i nostri esperimenti di addestramento possono ora essere eseguiti due volte più velocemente, il che significa che gli sviluppatori possono iterare più rapidamente, accelerando lo sviluppo di nuove esperienze di IA generativa per i nostri clienti. Poiché Amazon SageMaker HyperPod monitora automaticamente lo stato del cluster e corregge i guasti della GPU, i nostri sviluppatori hanno la possibilità di concentrarsi sulla creazione di modelli anziché dedicare tempo alla gestione e all'ottimizzazione dell'infrastruttura sottostante".
Perplexity mira a fornire risposte rapide e accurate alle domande degli utenti, il che richiede capacità di inferenza quasi in tempo reale. Utilizzando le istanze P5 di Amazon EC2, che offrono le istanze basate su GPU dalle prestazioni più elevate per applicazioni di deep learning, Perplexity può generare risposte con un throughput molto più elevato rispetto a prima. In effetti, l'azienda è in grado di gestire periodi di picco con diecimila utenti simultanei e oltre centomila query all'ora senza compromettere la latenza o influire sull'esperienza dell'utente. Perplexity ospita anche il modello Llama 2 disponibile al pubblico su istanze P5 di Amazon EC2 e utilizza Amazon SageMaker HyperPod per ottimizzare il modello open source utilizzando i propri dati. L'ottimizzazione dei modelli aiuta a migliorare l'accuratezza e la pertinenza delle risposte, adattando il modello alle esigenze del motore di risposta di Perplexity.
Risultato | Promuovere l'IA generativa utilizzando l'infrastruttura AWS e i servizi di IA/ML
Forte dei suoi successi, Perplexity è pronta oggi ad aprire nuovi orizzonti nell'IA generativa. Come parte della sua strategia lungimirante, l'azienda sperimenterà AWS Trainium, un acceleratore di addestramento ML ad alte prestazioni, per migliorare ulteriormente il throughput dell'addestramento. Perplexity ha inoltre lanciato un'API per fornire agli utenti l'accesso ai suoi , che funziona interamente su AWS ed è stata ottimizzata da Amazon SageMaker HyperPod.
Per espandere la propria base di conoscenze e fornire risposte più accurate ai suoi utenti, Perplexity ha anche adottato Amazon Bedrock, un servizio completamente gestito che offre una scelta di modelli di fondazione ad alte prestazioni delle principali aziende di intelligenza artificiale con una singola API. Ad esempio, Perplexity ha iniziato a utilizzare Claude 2 tramite Amazon Bedrock per incorporare funzionalità avanzate di codifica, matematica e ragionamento nel suo servizio.
"In AWS, il potere è nelle mani del cliente", afferma Srinivas. "Non ci sono requisiti per quanto riguarda i servizi da utilizzare. Il team AWS ci dice sempre: Fai ciò che è meglio per i tuoi clienti. Fai ciò che è meglio per la tua azienda". L'allineamento con i clienti è ciò che amiamo davvero di AWS".
Informazioni su Perplexity
Perplexity sta costruendo un motore di risposta funzionale e conversazionale ottimizzato per aiutare gli utenti a trovare informazioni piuttosto che potenziare annunci e parole chiave.
Servizi AWS utilizzati
Amazon SageMaker HyperPod
Amazon SageMaker HyperPod rimuove i carichi indifferenziati necessari per lo sviluppo e l'ottimizzazione di infrastrutture di machine learning (ML) per l'addestramento di modelli di fondazione (FM), riducendo il tempo di addestramento fino al 40%.
Istanze P5 di Amazon EC2
Le istanze P5 di Amazon Elastic Compute Cloud (Amazon EC2), basate sulle più recenti GPU NVIDIA H100 Tensor Core, offrono le massime prestazioni in Amazon EC2 per applicazioni di deep learning (DL) e calcolo ad alte prestazioni (HPC).
Istanze P4de di Amazon EC2
Le istanze P4de sono alimentate da 8 GPU NVIDIA A100 con 80 GB di memoria GPU HBM2e ad alte prestazioni, 2 volte superiore rispetto alle GPU delle nostre attuali istanze P4d.
Amazon Bedrock
Amazon Bedrock è un servizio completamente gestito che offre una scelta di modelli di fondazione (FM) ad alte prestazioni delle principali aziende di IA, come AI21 Labs, Anthropic, Cohere, Meta, Stability AI e Amazon, tramite un'unica API, insieme ad un'ampia gamma di funzionalità necessarie per creare applicazioni di IA generativa, utilizzando l'IA in modo sicuro, riservato e responsabile.
Altre testimonianze dei clienti del settore software e Internet
Inizia a usare Amazon SageMaker con il piano gratuito
Grazie al piano gratuito AWS, puoi iniziare a utilizzare Amazon SageMaker gratuitamente. Il piano gratuito di due mesi si attiva il primo giorno del mese in cui crei la tua prima risorsa SageMaker.