Clienti di Amazon SageMaker HyperPod
Le migliori startup e organizzazioni di IA di tutte le dimensioni stanno addestrando e implementando modelli di fondazione su larga scala su SageMaker HyperPOD
-
Hugging Face
Hugging Face ha utilizzato SageMaker HyperPod per creare nuovi importanti modelli di base aperti come StarCoder, IDEFICS e Zephyr, che sono stati scaricati milioni di volte. Le funzionalità di resilienza e le prestazioni appositamente sviluppate di SageMaker HyperPod hanno consentito al nostro team di open science di concentrarsi sull'innovazione e sulla pubblicazione di importanti miglioramenti alle modalità di creazione dei modelli di base, anziché sulla gestione dell'infrastruttura. Ci è particolarmente piaciuto il modo in cui SageMaker HyperPod è in grado di rilevare i guasti all'hardware del ML e di sostituire rapidamente l'hardware difettoso senza interrompere l'addestramento dei modelli in corso. Poiché i nostri team hanno bisogno di innovare rapidamente, questa funzionalità automatizzata di ripristino dei lavori ci ha aiutato a ridurre al minimo le interruzioni durante il processo di addestramento dei modelli di base, permettendoci risparmiare centinaia di ore di addestramento in un solo anno.
Jeff Boudier, Head of Product presso Hugging Face -
Perplexity AI
Stavamo cercando l'infrastruttura di ML giusta per aumentare la produttività e ridurre i costi al fine di creare modelli linguistici di grandi dimensioni ad alte prestazioni. Dopo aver condotto con successo alcuni esperimenti, siamo passati ad AWS da altri fornitori di servizi cloud per utilizzare Amazon SageMaker HyperPod. Abbiamo utilizzato HyperPod negli ultimi quattro mesi per creare e perfezionare gli LLM per alimentare il motore di risposta conversazionale Perplexity che risponde alle domande insieme ai riferimenti forniti sotto forma di citazioni. Poiché SageMaker HyperPod monitora automaticamente lo stato del cluster e corregge i guasti della GPU, i nostri sviluppatori hanno la possibilità di concentrarsi sulla creazione di modelli anziché dedicare tempo alla gestione e all'ottimizzazione dell'infrastruttura sottostante. Le librerie parallele integrate di dati e modelli di SageMaker HyperPod ci hanno aiutato a ottimizzare i tempi di addestramento sulle GPU e a raddoppiare la sua velocità di trasmissione effettiva. Di conseguenza, i nostri esperimenti di addestramento possono ora essere eseguiti due volte più velocemente, il che significa che gli sviluppatori possono iterare più rapidamente, accelerando lo sviluppo di nuove esperienze di IA generativa per i nostri clienti.
Aravind Srinivas, co-founder and CEO presso Perplexity AI -
Articul8 AI
La governance delle attività di Amazon SageMaker HyperPod consente di massimizzare l'utilizzo della GPU tra vari team e progetti. Come startup di IA generativa in rapida crescita, Articul8 AI ottimizza costantemente il proprio ambiente di calcolo per assegnare le risorse di elaborazione accelerate nel modo più efficiente possibile. Con la definizione automatica delle priorità delle attività e l’assegnazione delle risorse in SageMaker HyperPod, l’azienda ha notato un notevole miglioramento nell'utilizzo della GPU, riducendo così i tempi di inattività e accelerando il processo di sviluppo del modello ottimizzando attività che vanno dall’addestramento e messa a punto fino all'inferenza. La capacità di spostare automaticamente le risorse verso attività ad alta priorità ha aumentato la produttività del team, consentendogli di portare sul mercato le nuove innovazioni di IA generativa più velocemente che mai.
Amazon SageMaker HyperPod ci ha aiutato moltissimo a gestire e utilizzare le nostre risorse di calcolo in modo più efficiente e con tempi di inattività minimi. Siamo stati tra i primi ad utilizzare il servizio HyperPod basato su Slurm e abbiamo beneficiato della sua facilità d'uso e delle sue caratteristiche di resilienza, con un conseguente miglioramento della produttività fino al 35% e un rapido aumento verticale delle nostre operazioni di IA generativa. In qualità di azienda Kubernetes, siamo ora entusiasti di dare il benvenuto al lancio del supporto Amazon EKS per SageMaker HyperPod. Questo è un punto di svolta per noi in quanto si integra perfettamente con le nostre pipeline di addestramento esistenti e ci rende ancora più facile la gestione e l'utilizzo dei nostri cluster Kubernetes su larga scala. Inoltre, questo aiuta anche i nostri clienti finali, in quanto siamo ora in grado di pacchettizzare e commercializzare questa funzionalità nella nostra piattaforma di IA generativa, consentendo ai nostri clienti di eseguire i propri carichi di lavoro di addestramento e di ottimizzazione in modo più snello.
Arun Subramaniyan, fondatore e CEO di Articul8 AI -
Thomson Reuters
Thomson Reuters, una società tecnologica globale basata sui contenuti e sull'intelligenza artificiale, ha testato la capacità di governance delle attività in Amazon SageMaker HyperPod per affrontare una sfida chiave relativa alla definizione delle priorità dei carichi di lavoro. Grazie alla governance delle attività, l’azienda può ora gestire i carichi di lavoro dei clienti come le richieste di inferenza insieme ai propri progetti di sviluppo di modelli in corso, garantendo l’assegnazione di priorità alle richieste urgenti dei clienti senza interrompere la ricerca interna, con conseguente utilizzo più efficiente delle risorse e soddisfazione del cliente. “Siamo stati in grado di soddisfare i nostri requisiti di addestramento dei modelli linguistici di grandi dimensioni utilizzando Amazon SageMaker HyperPod”, ha dichiarato John Duprey, Distinguished Engineer presso Thomson Reuters Labs. “Utilizzando Amazon EKS su SageMaker HyperPod, siamo stati in grado di aumentare verticalmente la capacità ed eseguire facilmente lavori di addestramento, consentendoci di sfruttare i vantaggi degli LLM in aree quali la sintesi e la classificazione giuridica.”
Noi di Thomson Reuters siamo in prima linea nello sviluppo dell'IA da oltre 30 anni e ci impegniamo a fornire soluzioni significative che aiutino i nostri clienti a ottenere risultati più velocemente, con un migliore accesso a informazioni affidabili. Per accelerare la nostra innovazione nell'IA generativa, oltre a collaborare con i fornitori di LLM, stiamo anche esplorando la formazione di modelli personalizzati in modo più efficiente con i nostri contenuti unici e proprietari e la nostra esperienza umana. Le librerie di addestramento distribuite di SageMaker HyperPod ci aiutano a migliorare le prestazioni di addestramento dei modelli su larga scala. Inoltre, la sua funzionalità di resilienza consente di risparmiare tempo mentre monitoriamo e gestiamo l'infrastruttura. L'addestramento dei nostri modelli di base su SageMaker HyperPod aumenterà la nostra velocità di commercializzazione e ci aiuterà a fornire soluzioni di qualità per i nostri clienti in tempi rapidi.
Joel Hron, Head of AI and Labs presso Thomson Reuters e John Duprey, Distinguished Engineer presso Thomson Reuters Labs -
Stability AI
Essendo la principale azienda di IA generativa open source, il nostro obiettivo è massimizzare l'accessibilità dell'IA moderna. Stiamo costruendo modelli di base con decine di miliardi di parametri, che richiedono un'infrastruttura in grado di dimensionare prestazioni di addestramento ottimizzate. Con l'infrastruttura gestita e le librerie di ottimizzazione di SageMaker HyperPod, abbiamo la possibilità di ridurre i tempi e i costi di addestramento di oltre il 50%. Ciò rende il nostro addestramento dei modelli più resiliente ed efficiente per creare modelli all'avanguardia più velocemente.
Emad Mostaque, Founder and CEO presso Stability AI -
Recursal AI
L'intero processo è stato ottimizzato. Utilizzando SageMaker HyperPod, possiamo sfruttare le funzionalità di resilienza del cluster che identificano e recuperano automaticamente i lavori di addestramento dall'ultimo checkpoint salvato in caso di guasto hardware. Eseguiamo carichi di lavoro molto diversi, dalle applicazioni, all'inferenza e all'addestramento, con Kubernetes come filo conduttore. Per noi, Amazon EKS con SageMaker HyperPod è semplicemente un'ottima soluzione: i nodi vengono facilmente inseriti nel nostro cluster.
Nathan Wilce, Infrastructure/data lead presso Recursal -
Hippocratic AI
Hippocratic AI, una società di intelligenza artificiale che sviluppa il primo modello linguistico di grandi dimensioni (LLM) incentrato sulla sicurezza per l'assistenza sanitaria. Per addestrare il suo LLM primario e i modelli di supervisione, Hippocratic AI richiedeva potenti risorse di calcolo, che erano molto richieste e difficili da ottenere. I piani di addestramento flessibili Amazon SageMaker HyperPod hanno facilitato l'accesso alle istanze P5 di Amazon Elastic Compute Cloud (Amazon EC2). Hippocratic AI sta inoltre usufruendo di servizi AWS come Grafana per monitorare importanti parametri di utilizzo della GPU. Attraverso l’uso delle istanze Amazon EC2 P5, Hippocratic AI ha aumentato di quattro volte la velocità di addestramento dei modelli e adatta la propria soluzione per soddisfare centinaia di casi d'uso. Ha consentito loro di proteggere le risorse di calcolo necessarie e di addestrare rapidamente i modelli.
-
NinjaTech
NinjaTech AI, una società di IA generativa che fornisce un SuperAgent all-in-one per una produttività illimitata, ha utilizzato i piani di addestramento flessibili di Amazon SageMaker HyperPod per accelerare la messa a punto di vari modelli interni, incluso il modello Llama 3.1 405B per ridurre i costi di addestramento dei modelli e automatizzare il processo. L'azienda punta a fornire un'esperienza ottimizzata ai propri utenti che desiderano accedere a vari agenti AI che alimentano la loro tecnologia SuperAgent. Per raggiungere questo obiettivo, serviva un modello in grado di prevedere automaticamente l’intenzione dell’utente e determinare quale agente AI sarebbe stato adatto. Questo meccanismo ha richiesto aggiornamenti frequenti al modello incorporando il feedback dei clienti e le nuove funzionalità in modo iterativo, coinvolgendo 10-100 milioni di token ad ogni turno di messa a punto di LoRA. Per una startup, l'acquisizione e la gestione di risorse di calcolo ad alte prestazioni è impegnativa a causa dei costi elevati e dei problemi di larghezza di banda, in particolare nei cluster multinodo che implicano una rete veloce e uno storage veloce oltre all'elaborazione accelerata. Inoltre, il processo di addestramento richiede molto tempo e prevede passaggi come il download del modello, l’addestramento distribuito, il checkpoint, il monitoraggio, la riparazione automatica, la fusione e la quantizzazione. I piani di addestramento flessibili di HyperPod hanno fornito all'azienda un'elaborazione affidabile e conveniente prima dell'esecuzione dell’addestramento, soddisfacendo i requisiti specifici di elaborazione e sequenza temporale, garantendo al tempo stesso un addestramento efficiente del modello.
-
OpenBabylon
Gli sviluppatori e i data scientist di OpenBabylon, una società di intelligenza artificiale che personalizza LLM per le lingue sottorappresentate, utilizzano da alcuni mesi i piani di addestramento flessibili di SageMaker HyperPod per semplificare l'accesso alle risorse GPU ed eseguire esperimenti su larga scala. Utilizzando le capacità di addestramento distribuite di SageMaker HyperPod multinodo, hanno condotto 100 esperimenti di addestramento dei modelli su larga scala, ottenendo risultati all’avanguardia nella traduzione dall’inglese all’ucraino. Questa svolta è stata raggiunta efficacemente nei tempi ed entro i costi previsti, dimostrando la capacità di SageMaker HyperPod di poter completare progetti complessi rispettando tempi e budget.
-
Salesforce
I ricercatori di Salesforce erano alla ricerca di metodi per iniziare rapidamente l'addestramento e la messa a punto dei modelli di base, senza doversi preoccupare dell'infrastruttura o trascorrere settimane a ottimizzare lo stack di addestramento per ogni nuovo modello. Con le ricette Amazon SageMaker HyperPod, i ricercatori di Salesforce possono eseguire una prototipazione rapida durante la personalizzazione dei FM. I team di ricerca sull’intelligenza artificiale di Salesforce sono ora in grado di iniziare in pochi minuti con una varietà di ricette di pre-addestramento e messa a punto e possono rendere operativi modelli di frontiera con prestazioni elevate.
Partner di Amazon SageMaker HyperPod
Promuovi l'innovazione e sblocca un maggiore valore aziendale con i partner AWS, che dispongono di una profonda conoscenza tecnica e un successo comprovato con i clienti
-
Accenture
Stiamo estendendo la nostra partnership con AWS come partner di lancio per la governance delle attività di Amazon SageMaker HyperPod. La nostra collaborazione con AWS ci consentirà di guidare i clienti verso le ultime scoperte tecnologiche, contribuendo al contempo a ridurre i costi delle applicazioni di IA generativa. Riunendo le funzionalità di governance centralizzate di SageMaker HyperPod e la nostra esperienza nei progetti di IA generativa, possiamo aiutare le aziende a realizzare il valore dell'IA generativa ancora più velocemente, migliorando l'esperienza del cliente e aumentando il ritorno sull'investimento.
Jennifer Jackson, Global Lead per Accenture AWS Business Group e Senior Managing Director -
Slalom
Siamo entusiasti di collaborare con AWS come partner di lancio per la governance delle attività di Amazon SageMaker HyperPod. Lavorando con AWS, possiamo ora aiutare i nostri clienti ad adottare rapidamente i più recenti progressi tecnologici e a ridurre i costi delle loro applicazioni di IA generativa. Riunendo le funzionalità di governance centralizzate in SageMaker HyperPod, con la vasta esperienza di intelligenza artificiale e cloud di Slalom, possiamo offrire esperienze eccezionali ai clienti insieme a un maggiore ritorno sull'investimento.
Jeff Kempiners, Managing Director del Centro di eccellenza (CoE) Amazon di Slalom -
Rackspace Technology
Siamo entusiasti di collaborare con AWS come partner di lancio per la governance delle attività di SageMaker HyperPod. Insieme, possiamo aiutare i nostri clienti a ridurre i costi delle applicazioni di IA generativa, rimanendo al passo con i più recenti progressi tecnologici. Combinando le funzionalità di governance centralizzata di SageMaker HyperPod con la profonda esperienza di intelligenza artificiale e cloud di Rackspace, possiamo trasformare le esperienze dei clienti e migliorare contemporaneamente il loro ritorno sull'investimento.
Srini Koushik, President, AI, Technology and Sustainability presso Rackspace Technology