Istanze Inf2 di Amazon EC2

Prestazioni elevate a costi più bassi in Amazon EC2 per l'inferenza dell'IA generativa

Nozioni di base sulle istanze Inf2 con AWS Neuron

Le istanze Inf2 di Amazon Elastic Compute Cloud (Amazon EC2) sono create appositamente per l'inferenza di deep learning (DL). Offrono prestazioni elevate al costo più basso in Amazon EC2 per modelli di intelligenza artificiale (IA) generativa, inclusi modelli di linguaggio di grandi dimensioni (LLM) e transformer di visione. Puoi utilizzare le istanze Inf2 per eseguire le applicazioni di inferenza per il riepilogo del testo, la generazione di codice, la generazione di video e immagini, il riconoscimento vocale, la personalizzazione, il rilevamento di frodi e altro ancora.

Le istanze Inf2 sono alimentate da AWS Inferentia2, l'acceleratore AWS Inferentia di seconda generazione. Le istanze Inf2 migliorano le prestazioni di Inf1 offrendo prestazioni di elaborazione 3 volte superiori, una memoria di accelerazione totale 4 volte più grande, una velocità di trasmissione effettiva fino a 4 volte superiore e una latenza fino a 10 volte inferiore. Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 e supportano l'inferenza distribuita su scala con connettività ad altissima velocità tra gli acceleratori. Ora puoi implementare in modo efficiente ed economico modelli con centinaia di miliardi di parametri su più acceleratori su istanze Inf2.

L'SDK di AWS Neuron aiuta gli sviluppatori a implementare i modelli sugli acceleratori AWS Inferentia e ad addestrarli sugli acceleratori AWS Trainium. Si integra in modo nativo con i framework come PyTorch e TensorFlow, in modo che sia possibile continuare a utilizzare i flussi di lavoro e il codice delle applicazioni esistenti ed eseguirli sulle istanze Inf2.

Come funziona

Utilizzo di AWS DLAMI
Utilizzo di Amazon EKS
Utilizzo di Amazon ECS
Uso di Amazon SageMaker

Utilizzo di AWS DLAMI
Il diagramma mostra il flusso di lavoro per l'implementazione di istanze Inf2 di Amazon EC2 tramite AWS Deep Learning AMI (DLAMI).

La prima colonna include due sezioni impilate verticalmente. La prima sezione in alto include le seguenti applicazioni utente raggruppate in un riquadro: interfaccia a riga di comando di AWS (CLI), strumenti ed SDK AWS e API AWS Cloud Control. La sezione seguente include la Console di gestione AWS.

La prima sezione di questa prima colonna ha una freccia che indica il lancio di un razzo con il seguente testo: "Avvia DLAMI automaticamente utilizzando la CLI, l'SDK o l'API di AWS". La seconda sezione di quella prima colonna ha una freccia che punta verso il lancio di un razzo con il seguente testo: "Avvia DLAMI dalla console".

Entrambe le icone dei razzi hanno una freccia condivisa che punta a una casella che rappresenta le istanze Amazon EC2 Inf2.

A destra della casella dell'istanza Inf2, c'è una casella che rappresenta DLAMI. Questa casella DLAMI è raggruppata utilizzando una casella attorno al seguente testo: "Terminale locale", "Terminale remoto EC2" e "Script dell'applicazione". Questi tre elementi includono una freccia che punta verso la casella DLAMI. La casella DLAMI ha quindi una freccia che punta all'indietro verso la casella di istanza Inf2.

Fai clic per ingrandire
Utilizzo di Amazon EKS
Il diagramma mostra il flusso di lavoro per la creazione di cluster Kubernetes, l'implementazione di istanze Inf2 di Amazon EC2 per i cluster e l'esecuzione delle applicazioni di inferenza su Kubernetes.

La prima casella rappresenta Amazon Elastic Kubernetes Service (Amazon EKS) e include il seguente testo: "Crea cluster Kubernetes (con tecnologia Amazon EKS Distro)".

Una freccia punta dalla prima casella alla seconda casella per le istanze Inf2 di Amazon EC2. Questa casella include il seguente testo: "Implementa i nodi worker Inf2 per il tuo cluster EKS".

Una freccia punta da questa seconda casella all'ultimo elemento con il seguente testo: "Esegui le tue applicazioni di inferenza su Kubernetes".

Fai clic per ingrandire
Utilizzo di Amazon ECS
Il diagramma mostra il flusso di lavoro per l'implementazione di istanze Inf2 di Amazon EC2 tramite AWS Deep Learning Containers con Amazon Elastic Container Service (Amazon ECS).

La prima casella rappresentava Amazon Elastic Container Registry (Amazon ECR). Include il seguente testo: "Crea immagini e archivia utilizzando ECR o qualsiasi altro repository".

Una freccia indica da questo riquadro a un riquadro per Amazon ECS.

Una freccia punta da questa casella a un elemento che include il seguente testo: "Seleziona l'immagine del container di deep learning per la tua applicazione".

Una freccia punta da queste informazioni a una casella per le istanze Inf2 di Amazon EC2. Questa casella include il seguente testo: "Implementa il carico di lavoro di inferenza su Inf2".

Una freccia punta da questa casella a un articolo che include il seguente testo: "Gestisci i container con Amazon ECS".

Fai clic per ingrandire
Uso di Amazon SageMaker
Il diagramma mostra il flusso di lavoro per l'utilizzo degli artefatti del modello archiviati in un bucket Amazon Simple Storage Service (Amazon S3) e in un'immagine di container Amazon ECR con Amazon SageMaker per implementare l'inferenza sulle istanze Inf2.

Il primo gruppo include due caselle impilate verticalmente. Il primo riquadro in alto è per Amazon S3 e include il seguente testo: "Artefatti del modello archiviati nel bucket S3". La seconda casella sottostante è per Amazon Elastic Container Registry (Amazon ECR) e include il seguente testo: "Immagine di container".

Questo primo gruppo ha una freccia che punta ad Amazon SageMaker. Questo elemento è raggruppato in una casella che include le seguenti informazioni sul flusso di lavoro:

Per prima cosa vi è il seguente testo: "Crea un modello SageMaker". Una freccia punta da questo elemento a una casella per le istanze Inf2 di Amazon EC2 con il seguente testo: "Scegli Inf2 come opzione di inferenza SageMaker (ml.inf2)". La freccia successiva punta da questa casella al seguente testo: "Configura, crea e richiama un endpoint SageMaker per ottenere un'inferenza".

Fai clic per ingrandire

Vantaggi

Implementa più di 100 miliardi di modelli di parametri con l'IA generativa su larga scala

Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 a supportare l'inferenza distribuita su larga scala. Ora puoi distribuire in modo efficiente i modelli con centinaia di miliardi di parametri su più acceleratori su istanze Inf2, utilizzando la connettività ad altissima velocità tra gli acceleratori.

Aumenta le prestazioni riducendo notevolmente i costi di inferenza

Le istanze Inf2 sono progettate per offrire prestazioni elevate al minor costo in Amazon EC2 per le implementazioni DL. Offrono una velocità di trasmissione effettiva fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto alle istanze Inf1 di Amazon EC2. Le istanze Inf2 offrono un rapporto tra prestazioni e prezzo superiore fino al 40% rispetto ad altre istanze Amazon EC2 comparabili.

Usa i framework e le librerie di ML esistenti

Usa l'SDK AWS Neuron per estrarre le prestazioni complete delle istanze Inf2. Con Neuron, puoi utilizzare i tuoi framework esistenti come PyTorch e TensorFlow e ottenere prestazioni ottimizzate fin dall'inizio per i modelli nei repository più diffusi come Hugging Face. Neuron supporta le integrazioni di runtime con strumenti di servizio come TorchServe e TensorFlow Serving. Inoltre, aiuta a ottimizzare le prestazioni con profili integrati e strumenti di debug come Neuron-Top e si integra in strumenti di visualizzazione più diffusi come TensorBoard.

Raggiungi i tuoi obiettivi di sostenibilità con una soluzione ad alta efficienza energetica

Le istanze Inf2 offrono un rapporto prestazioni/watt superiore fino al 50% rispetto ad altre istanze Amazon EC2 comparabili. Queste istanze e gli acceleratori Inferentia2 sottostanti utilizzano processi avanzati e ottimizzazioni hardware e software per offrire un'elevata efficienza energetica durante l'esecuzione di modelli DL su larga scala. Utilizza le istanze Inf2 per raggiungere i tuoi obiettivi di sostenibilità durante l'implementazione di modelli di dimensioni ultra-grandi.

Caratteristiche

Fino a 2,3 petaflop con AWS Inferentia2

Le istanze Inf2 sono alimentate da un massimo di 12 acceleratori AWS Inferentia2 connessi con NeuronLink ad altissima velocità per comunicazioni collettive semplificate. Offrono fino a 2,3 petaflop di potenza di calcolo, velocità di trasmissione effettiva fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto alle istanze Inf1.

Fino a 384 GB di memoria dell'acceleratore ad alta larghezza di banda

Per adattarsi ai modelli DL di grandi dimensioni, le istanze Inf2 offrono fino a 384 GB di memoria acceleratrice condivisa (32 GB HBM in ogni acceleratore Inferentia2, 4 volte maggiore dell'Inferentia di prima generazione) con 9,8 TB/s di larghezza di banda di memoria totale (10 volte più veloce rispetto a Inferentia di prima generazione).

Interconnessione NeuronLink

Per una comunicazione rapida tra gli acceleratori, le istanze Inf2 supportano 192 GB/s di NeuronLink, un'interconnessione ad altissima velocità e non bloccante. Inf2 è l'unica istanza ottimizzata per l'inferenza a offrire questa interconnessione, una funzionalità disponibile solo nelle istanze di formazione più costose. Per i modelli di grandi dimensioni che non rientrano in un singolo acceleratore, i dati fluiscono direttamente tra gli acceleratori con NeuronLink, bypassando completamente la CPU. Con NeuronLink, Inf2 supporta un'inferenza distribuita più rapida e migliora la velocità di trasmissione effettiva e la latenza.

Ottimizzato per nuovi tipi di dati con trasmissione automatica

Inferentia2 supporta FP32, TF32, BF16, FP16, UINT8 e il nuovo tipo di dati configurabile FP8 (cFP8). AWS Neuron può acquisire i modelli FP32 ed FP16 ad alta precisione e li trasmette automaticamente a tipi di dati a bassa precisione, ottimizzando al contempo precisione e prestazioni. La trasmissione automatica (autocasting) riduce i tempi di commercializzazione eliminando la necessità di riqualificazione a bassa precisione e consentendo un'inferenza a prestazioni più elevate con tipi di dati più piccoli.

Ottimizzazioni DL all'avanguardia

Per supportare la rapida innovazione DL, le istanze Inf2 presentano diverse novità che le rendono flessibili ed estensibili per implementare modelli DL in continua evoluzione. Le istanze Inf2 dispongono di ottimizzazioni hardware e supporto software per forme di input dinamiche. Per consentire il supporto di nuovi operatori in futuro, supportano operatori personalizzati scritti in C++. Supportano inoltre l'arrotondamento stocastico, un metodo di arrotondamento probabilistico per ottenere prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali.

Dettagli del prodotto

Dimensioni istanza	Acceleratori Inferentia2	Acceleratore Memoria (GB)	vCPU	Memoria (GiB)	Locale Archiviazione	Inter-acceleratore Interconnessione	Rete Larghezza di banda (Gbps)	EBS Larghezza di banda (Gbps)	Prezzo on demand	Istanza riservata per 1 anno	Istanza riservata per 3 anni
inf2.xlarge	1	32	4	16	Solo EBS	N/D	Fino a 15	Fino a 10	0,76 USD	0,45 USD	0,30 USD
inf2.8xlarge	1	32	32	128	Solo EBS	N/D	Fino a 25	10	1,97 USD	1,81 USD	0,79 USD
inf2.24xlarge	6	192	96	384	Solo EBS	Sì	50	30	6,49 USD	3,89 USD	2,60 USD
inf2.48xlarge	12	384	192	768	Solo EBS	Sì	100	60	12,98 USD	7,79 USD	5,19 USD

Testimonianze dei clienti

"Il nostro team di Leonardo sfrutta l'IA generativa per consentire ai professionisti e agli appassionati creativi di produrre risorse visive con qualità, velocità e coerenza stilistica senza pari. Il rapporto prezzo/prestazioni di AWS Inf2 Utilizzando AWS Inf2 siamo in grado di ridurre i nostri costi dell'80%, senza sacrificare le prestazioni, cambiando radicalmente la proposta di valore che possiamo offrire ai clienti, abilitando le nostre funzionalità più avanzate a un prezzo più accessibile. Inoltre, allevia le preoccupazioni relative ai costi e alla disponibilità della capacità per i nostri servizi di intelligenza artificiale ausiliari, che sono sempre più importanti man mano che cresciamo e dimensioniamo. È una tecnologia abilitante fondamentale per noi mentre continuiamo a superare i limiti di ciò che è possibile con l'IA generativa, consentendo una nuova era di creatività e potenza espressiva per i nostri utenti".

Pete Werner, Head of AI, Leonardo.ai

"In Runway, la nostra suite di AI Magic Tools consente ai nostri utenti di generare e modificare contenuti come mai prima d'ora. Stiamo costantemente superando i limiti di ciò che è possibile fare con la creazione di contenuti basata sull'intelligenza artificiale e, man mano che i nostri modelli di intelligenza artificiale diventano più complessi, i costi di infrastruttura alla base dell'esecuzione di questi modelli su larga scala possono diventare costosi. Grazie alla nostra collaborazione con le istanze Inf2 di Amazon EC2 basate su AWS Inferentia, siamo in grado di eseguire alcuni dei nostri modelli con una velocità di trasmissione effettiva fino a 2 volte superiore rispetto a istanze simili basate su GPU. Questa inferenza ad alte prestazioni e a basso costo ci consente di introdurre più funzionalità, implementare modelli più complessi e, in definitiva, offrire un'esperienza migliore ai milioni di creatori che utilizzano Runway".

Cristóbal Valenzuela, cofondatore e CEO, Runway

Qualtrics progetta e sviluppa software per la gestione delle esperienze.

"In Qualtrics, il nostro obiettivo è definire una tecnologia che colmi le lacune di esperienza per clienti, dipendenti, marchi e prodotti. A tal fine, stiamo sviluppando modelli di deep learning multi-task e multi-modali complessi per lanciare nuove funzionalità, come la classificazione dei testi, il tagging delle sequenze, l'analisi del discorso, l'estrazione di frasi chiave, l'estrazione di argomenti, il clustering e la comprensione delle conversazioni end-to-end. Con l'utilizzo di questi modelli più complessi in un numero maggiore di applicazioni, il volume dei dati non strutturati aumenta e abbiamo bisogno di soluzioni ottimizzate per l'inferenza con migliori prestazioni in grado di soddisfare tali richieste, come le istanze Inf2, per offrire esperienze soddisfacenti ai nostri clienti. Siamo entusiasti delle nuove istanze Inf2 perché non solo ci permettono di raggiungere una velocità di trasmissione effettiva più elevata, riducendo drasticamente la latenza, ma introducono anche funzionalità come l'inferenza distribuita e il supporto avanzato per la forma dinamica degli input, che ci aiutano a dimensionare per soddisfare le esigenze di implementazione mentre ci spingiamo verso modelli più grandi e complessi".

Aaron Colak, Head of Core Machine Learning, Qualtrics

Finch Computing è un'azienda di tecnologia del linguaggio naturale che fornisce applicazioni di intelligenza artificiale a clienti collegati a enti pubblici, servizi finanziari e integratori di dati.

"Per soddisfare le esigenze dei nostri clienti in materia di elaborazione del linguaggio naturale in tempo reale, sviluppiamo modelli di deep learning all'avanguardia, in grado di dimensionare su grandi carichi di lavoro di produzione. Dobbiamo fornire transazioni a bassa latenza e raggiungere una velocità di trasmissione effettiva elevata per elaborare feed di dati globali. Abbiamo già migrato molti carichi di lavoro di produzione su istanze Inf1 e abbiamo ottenuto una riduzione dei costi dell'80% rispetto alle GPU. Ora stiamo sviluppando modelli più grandi e complessi che consentono di ottenere un significato più profondo e dettagliato dal testo scritto. Molti dei nostri clienti hanno bisogno di accedere a queste informazioni in tempo reale e le prestazioni delle istanze Inf2 ci aiutano a garantire una latenza inferiore e una velocità di trasmissione effettiva superiore rispetto alle istanze Inf1. Grazie ai miglioramenti delle prestazioni di Inf2 e alle nuove funzionalità di Inf2, come il supporto per le dimensioni dinamiche degli input, stiamo migliorando la nostra efficienza in termini di costi, migliorando l'esperienza dei clienti in tempo reale e aiutando i nostri clienti a ricavare nuove informazioni dai loro dati".

Franz Weckesser, Chief Architect, Finch Computing

Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria aperta ed equa. Nell'ambito di tale piattaforma, HiTTO Inc., un'azienda del gruppo Money Forward, offre un servizio di chatbot IA, che utilizza modelli di elaborazione del linguaggio naturale (NLP) su misura per gestire le diverse esigenze dei clienti aziendali.

"Abbiamo lanciato un servizio di chatbot IA su larga scala sulle istanze Inf1 di Amazon EC2 e ridotto la nostra latenza di inferenza del 97% rispetto a istanze analoghe basate su GPU, riducendo al contempo i costi. Siamo stati molto lieti di vedere ulteriori miglioramenti delle prestazioni nei risultati dei nostri test iniziali sulle istanze Inf2 di Amazon EC2. Utilizzando lo stesso modello NLP personalizzato, AWS Inf2 è riuscito a ridurre ulteriormente la latenza di 10 volte rispetto a Inf1. Mentre passiamo a costosissimi modelli di parametri più grandi, Inf2 ci dà la certezza di poter continuare a fornire ai nostri clienti un'esperienza utente end-to-end superiore".

Takuya Nakade, CTO, Money Forward Inc.

"In Fileread.ai, stiamo creando soluzioni per rendere l'interazione con i documenti tanto semplice quanto porre domande, consentendo agli utenti di trovare ciò che cercano tra tutti i loro documenti e di ottenere le informazioni giuste più rapidamente. Da quando siamo passati alla nuova istanza Inf2 di EC2, abbiamo visto un miglioramento significativo nelle nostre capacità di inferenza NLP. I soli risparmi sui costi sono stati un punto di svolta per noi, consentendoci di allocare le risorse in modo più efficiente senza sacrificare la qualità. Abbiamo ridotto la latenza di inferenza del 33% e aumentato la velocità di trasmissione effettiva del 50%, soddisfacendo i nostri clienti con tempi di consegna più rapidi. Il nostro team è rimasto sbalordito dalla velocità e dalle prestazioni di Inf2 rispetto alle vecchie istanze G5 ed è chiaro che questo è il futuro nell'implementazione dei modelli NLP".

Daniel Hu, CEO, Fileread

"In Yaraku, la nostra missione è costruire l'infrastruttura che aiuti le persone a comunicare attraverso le barriere linguistiche. Il nostro prodotto di punta, YarakuZen, consente a chiunque, dai traduttori professionisti alle persone monolingue, di tradurre e modificare testi e documenti con sicurezza. Per supportare questo processo, offriamo una vasta gamma di strumenti sofisticati basati su modelli di deep learning, che coprono attività come traduzione, allineamento di parole bitext, segmentazione delle frasi, modellazione linguistica e molte altre. Grazie alle istanze Inf1, siamo riusciti a velocizzare i nostri servizi per soddisfare la crescente domanda riducendo al contempo i costi di inferenza di oltre il 50% rispetto alle istanze basate su GPU. Stiamo ora procedendo allo sviluppo di modelli più grandi di nuova generazione che richiederanno le funzionalità avanzate delle istanze Inf2 per soddisfare la domanda mantenendo una bassa latenza. Con Inf2, saremo in grado di aumentare la scalabilità dei nostri modelli di 10 volte mantenendo una velocità di trasmissione effettiva simile, consentendoci di offrire livelli di qualità ancora più elevati ai nostri clienti".

Giovanni Giacomo, NLP Lead, Yaraku

Testimonianze dei partner AWS

"La missione di Hugging Face è democratizzare un buon machine learning per aiutare gli sviluppatori di ML di tutto il mondo a risolvere problemi del mondo reale. E la chiave per farlo è garantire che i modelli più recenti e migliori vengano eseguiti nel modo più rapido ed efficiente possibile sui migliori acceleratori ML del cloud. Siamo incredibilmente entusiasti del potenziale che Inferentia2 diventi il nuovo modo standard per implementare modelli di intelligenza artificiale generativi su larga scala. Con Inf1, abbiamo registrato una riduzione dei costi fino al 70% rispetto alle tradizionali istanze basate su GPU e con Inf2 abbiamo riscontrato una latenza fino a 8 volte inferiore per i Transformers simili a BERT rispetto a Inferentia1. Con Inferentia2, la nostra community sarà in grado di adattare facilmente queste prestazioni agli LLM con parametri di oltre 100 B e ai più recenti modelli di diffusione e visione artificiale".

"PyTorch accelera il percorso dalla prototipazione di ricerca alle implementazioni di produzione per gli sviluppatori di ML. Abbiamo collaborato con il team AWS per fornire supporto PyTorch nativo per le nuove istanze Amazon EC2 Inf2 basate su AWS Inferentia2. Poiché sempre più membri della nostra community cercano di implementare modelli di intelligenza artificiale generativi di grandi dimensioni, siamo entusiasti di collaborare con il team AWS per ottimizzare l'inferenza distribuita sulle istanze Inf2 con connettività NeuronLink ad alta velocità tra gli acceleratori. Con Inf2, gli sviluppatori che utilizzano PyTorch possono ora implementare facilmente modelli LLM e trasformatori di visione di grandi dimensioni. Inoltre, le istanze Inf2 offrono altre funzionalità innovative agli sviluppatori di PyTorch, tra cui tipi di dati efficienti, forme dinamiche, operatori personalizzati e arrotondamento stocastico ottimizzato per l'hardware, che le rendono adatte per un'ampia adozione da parte della comunità PyTorch".

"Weights & Biases (W&B) fornisce strumenti di sviluppo per ingegneri di ML e data scientist per creare modelli migliori più velocemente. La piattaforma W&B fornisce ai professionisti del machine learning un'ampia varietà di informazioni per migliorare le prestazioni dei modelli, incluso l'utilizzo dell'infrastruttura di elaborazione sottostante. Abbiamo collaborato con il team AWS per aggiungere il supporto per Amazon Trainium e Inferentia2 al nostro pannello di controllo dei parametri di sistema, fornendo dati preziosi molto necessari durante la sperimentazione e la formazione dei modelli. Ciò consente ai professionisti del machine learning di ottimizzare i propri modelli per sfruttare appieno l'hardware appositamente creato da AWS per addestrare i propri modelli più velocemente e a costi inferiori".

Phil Gurbacki, VP of Product, Weights & Biases

"OctoML aiuta gli sviluppatori a ridurre i costi e creare applicazioni AI scalabili impacchettando i loro modelli DL per l'esecuzione su hardware ad alte prestazioni. Abbiamo passato gli ultimi anni a sviluppare competenze sulle migliori soluzioni software e hardware e integrarle nella nostra piattaforma. Le nostre radici come progettisti di chip e hacker di sistemi rendono AWS Trainium e Inferentia ancora più interessanti per noi. Consideriamo questi acceleratori come un fattore trainante chiave per il futuro dell'innovazione dell'intelligenza artificiale sul cloud. Il lancio GA delle istanze Inf2 è particolarmente tempestivo, poiché stiamo assistendo all'emergere del popolare LLM come elemento fondamentale delle applicazioni IA di nuova generazione. Siamo entusiasti di rendere disponibili queste istanze nella nostra piattaforma per aiutare gli sviluppatori a trarre facilmente vantaggio dalle loro elevate prestazioni e dai vantaggi in termini di risparmio sui costi".

Jared Roesch, CTO and Cofounder, OctoML

"La sfida storica con gli LLM e, più in generale, con le applicazioni di IA generativa di livello aziendale, sono i costi associati alla formazione e all'esecuzione di modelli DL ad alte prestazioni. Oltre ad AWS Trainium, AWS Inferentia2 rimuove i compromessi finanziari che i nostri clienti fanno quando richiedono una formazione ad alte prestazioni. Ora, i nostri clienti che cercano vantaggi nella formazione e nell'inferenza possono ottenere risultati migliori spendendo meno denaro. Trainium e Inferentia accelerano la scalabilità per soddisfare anche i requisiti DL più esigenti per le aziende più grandi di oggi. Molti clienti Nextira che eseguono grandi carichi di lavoro di intelligenza artificiale trarranno vantaggi diretti da questi nuovi chipset, aumentando l'efficienza in termini di risparmio sui costi e prestazioni e portando a risultati più rapidi nel loro mercato".

Jason Cutrer, fondatore e CEO, Nextira

I servizi Amazon utilizzano le istanze Inf2 di Amazon EC2

Amazon CodeWhisperer è un complemento di codifica IA che genera consigli di codice a riga singola o completa in tempo reale nel tuo ambiente di sviluppo integrato (IDE) per aiutarti a creare rapidamente software.

"Con CodeWhisperer, stiamo migliorando la produttività degli sviluppatori di software fornendo consigli sul codice utilizzando modelli di intelligenza artificiale generativi. Per sviluppare raccomandazioni di codice altamente efficaci, abbiamo adattato la nostra rete DL a miliardi di parametri. I nostri clienti hanno bisogno di consigli sul codice in tempo reale durante la digitazione, quindi le risposte a bassa latenza sono fondamentali. I modelli di intelligenza artificiale generativa di grandi dimensioni richiedono un'elaborazione ad alte prestazioni per fornire tempi di risposta in una frazione di secondo. Con Inf2, offriamo la stessa latenza dell'esecuzione di CodeWhisperer sull'addestramento di istanze GPU ottimizzate per sequenze di input e output di grandi dimensioni. Pertanto, le istanze Inf2 ci aiutano a risparmiare costi ed energia offrendo al contempo la migliore esperienza possibile agli sviluppatori".

Doug Seven, Direttore generale, Amazon CodeWhisperer

Il motore di ricerca di prodotti di Amazon indicizza miliardi di prodotti, soddisfa ogni giorno miliardi di domande dei clienti ed è uno dei servizi più utilizzati al mondo.

"Sono super entusiasta del lancio GA di Inf2. Le prestazioni superiori di Inf2, insieme alla sua capacità di gestire modelli più grandi con miliardi di parametri, lo rendono la scelta perfetta per i nostri servizi e ci consentono di sbloccare nuove possibilità in termini di complessità e precisione dei modelli. Con la notevole velocità e l'efficienza in termini di costi offerte da Inf2, l'integrazione nell'infrastruttura di servizio di Amazon Search può aiutarci a soddisfare le crescenti richieste dei nostri clienti. Stiamo pianificando di potenziare le nostre nuove esperienze di acquisto utilizzando LLM generativi utilizzando Inf2".

Trishul Chilimbi, vicepresidente di Amazon Search

Nozioni di base

Uso di Amazon SageMaker

Implementa i modelli sulle istanze Inf2 più facilmente utilizzando Amazon SageMaker e riduci significativamente i costi di implementazione dei modelli ML e aumentare le prestazioni senza la necessità di gestire l'infrastruttura. SageMaker è un servizio completamente gestito e si integra con gli strumenti MLOps. Pertanto, è possibile scalare l'implementazione dei modelli, gestire i modelli in modo più efficace in produzione e ridurre il carico operativo.

Utilizzo delle AMI di AWS Deep Learning

AWS Deep Learning AMI (DLAMI) fornisce agli esperti di ML e ai ricercatori l'infrastruttura e gli strumenti nel cloud necessari per velocizzare i processi di deep learning su qualsiasi scala. I driver AWS Neuron sono preconfigurati nel DLAMI per distribuire i modelli DL in modo ottimale sulle istanze Inf2.

Utilizzo dei container AWS per il deep learning

Adesso puoi implementare istanze Inf2 in Amazon Elastic Kubernetes Service (Amazon EKS), un servizio Kubernetes completamente gestito, e in Amazon Elastic Container Service (Amazon ECS), un servizio di orchestrazione di container completamente gestito. Neuron è disponibile anche preinstallato in AWS Deep Learning Containers. Per saperne di più sull'esecuzione di container sulle istanze Inf2, consulta i tutorial sui container Neuron.

Registrati per creare un account AWS

Ottieni accesso istantaneo al piano gratuito di AWS.

Impara con i tutorial di 10 minuti

Esplora e impara con semplici tutorial.

Inizia a lavorare nella console

Inizia a creare seguendo le istruzioni contenute nelle guide dettagliate per avviare un progetto AWS.