Istanze P5 di Amazon EC2

Istanze basate su GPU dalle prestazioni più elevate per applicazioni di deep learning e HPC

Nozioni di base sulle istanze P5 di Amazon EC2

Le istanze P5 di Amazon Elastic Compute Cloud (Amazon EC2), basate sulle più recenti GPU NVIDIA H100 Tensor Core, offrono le massime prestazioni in Amazon EC2 per applicazioni di deep learning (DL) e calcolo ad alte prestazioni (HPC). Permettono di accelerare i tempi di soluzione fino a 4 volte rispetto alle istanze EC2 basate su GPU di generazione precedente e a ridurre i costi di addestramento dei modelli di ML fino al 40%. Le istanze P5 ti aiutano a iterare sulle tue soluzioni a un ritmo più rapido e a raggiungere il mercato più rapidamente. Puoi utilizzare le istanze P5 per addestrare e implementare modelli linguistici di grandi dimensioni (LLM) e modelli di diffusione sempre più complessi che sono alla base dele applicazioni di intelligenza artificiale (IA) generativa più esigenti. Tali applicazioni includono la risposta a domande, la generazione di codice, la generazione di video e immagini e il riconoscimento vocale. Puoi utilizzare le istanze P5 anche per implementare applicazioni HPC impegnative su larga scala per la scoperta farmaceutica, l'analisi sismica, le previsioni meteorologiche e la modellazione finanziaria.

Per offrire questi miglioramenti delle prestazioni e risparmiare sui costi, le istanze P5 completano le GPU NVIDIA H100 Tensor Core con prestazioni della CPU e memoria di sistema due volte superiori, nonché uno spazio di archiviazione locale quadruplo rispetto alle istanze basate sulle GPU di generazione precedente. Offrono funzionalità di scalabilità all'avanguardia per l'addestramento distribuito e i carichi di lavoro HPC strettamente accoppiati con un massimo di 3.200 Gb/s di rete utilizzando Elastic Fabric Adapter (EFAv2) di seconda generazione. Per fornire elaborazione su larga scala a bassa latenza, le istanze P5 vengono implementate in UltraCluster Amazon EC2 che consentono un aumento fino a 20.000 GPU H100. Questi sono interconnessi con una rete non bloccante nell'ordine dei petabit. Le istanze P5 negli UltraCluster EC2 offrono fino a 20 exaflop di capacità di elaborazione aggregata, con prestazioni equivalenti a quelle di un supercomputer.

Istanze P5 di Amazon EC2 (1:24)

Riserva subito le istanze P5 per un uso futuro

Con i blocchi di capacità di Amazon EC2 per il ML, puoi prenotare facilmente le istanze P5 con un anticipo fino a otto settimane. Puoi prenotare le istanze P5 per 1-14 giorni e in cluster di dimensioni da una a 64 istanze (512 GPU), offrendoti la flessibilità necessaria per eseguire un'ampia gamma di carichi di lavoro.

Vantaggi

Addestra più di 100 miliardi di modelli di parametri su larga scala

Le istanze P5 possono addestrare modelli di IA generativa di grandi dimensioni su larga scala e fornire prestazioni fino a 4 volte superiori rispetto alle istanze EC2 basate su GPU di generazione precedente.

Riduci i tempi di soluzione ed esegui iterazioni più velocemente

Le istanze P5 riducono i tempi di addestramento e i tempi di soluzione da diverse settimane a pochi giorni. Questo ti aiuta a iterare a un ritmo più veloce e ad arrivare sul mercato più rapidamente.

Riduci i costi dell'infrastruttura DL e HPC

Le istanze P5 offrono un risparmio fino al 40% sull'addestramento DL e sui costi dell'infrastruttura HPC rispetto alle istanze EC2 basate su GPU di generazione precedente.

Esegui l'addestramento distribuito e HPC con elaborazione exascale

Le istanze P5 forniscono fino a 3.200 Gb/s di rete EFAv2. Queste istanze sono implementate negli UltraCluster EC2 e offrono 20 exaflop di capacità di elaborazione aggregata.

Funzionalità

GPU H100 Tensor Core di NVIDIA

Le istanze P5 forniscono fino a 8 GPU H100 di INVIDIA con un totale di memoria GPU HBM3 fino a 640 GB per istanza. Le istanze P5 supportano fino a 900 GB/s di interconnessione GPU NVSwitch (un totale di larghezza di banda bisezionale di 3,6 TB/s in ogni istanza), quindi ogni GPU può comunicare con tutte le altre GPU nella stessa istanza con latenza a singolo hop.

Nuovo motore di trasformazione e istruzioni DPX

Le GPU H100 di NVIDIA dispongono di un nuovo motore di trasformazione che gestisce in modo intelligente e sceglie dinamicamente tra calcoli FP8 e 16 bit. Questa funzionalità consente di velocizzare l'addestramento DL sugli LLM rispetto alle GPU A100 della generazione precedente. Per i carichi di lavoro HPC, le GPU H100 di NVIDIA dispongono di nuove istruzioni DPX che accelerano ulteriormente gli algoritmi di programmazione dinamica rispetto alle GPU A100.

Rete ad alte prestazioni

Le istanze P5 forniscono fino a 3.200 Gb/s di rete EFAv2. EFAv2 offre un miglioramento fino al 50% delle prestazioni delle comunicazioni collettive per carichi di lavoro di addestramento distribuiti. EFAv2 è inoltre accoppiato a NVIDIA GPUDirect RDMA per consentire la comunicazione da GPU a GPU a bassa latenza tra i server con bypass del sistema operativo.

Archiviazione ad alte prestazioni

Le istanze P5 supportano i file system Amazon FSx per Lustre consentendo di accedere ai dati con le centinaia di GB/s di velocità di trasmissione effettiva e i milioni di IOPS necessari per i carichi di lavoro DL e HPC su larga scala. Ogni istanza P5 supporta anche fino a 30 TB di archiviazione SSD NVMe locale per un accesso rapido a set di dati di grandi dimensioni. Inoltre, è possibile utilizzare uno spazio di archiviazione economico e virtualmente illimitato con Amazon Simple Storage Service (Amazon S3).

UltraCluster EC2 di seconda generazione

Le istanze P5 vengono implementate in UltraCluster EC2 di seconda generazione, che forniscono una struttura di rete che consente una maggiore scalabilità, un minor numero di hop di rete nel cluster e una latenza inferiore rispetto agli UltraCluster della generazione precedente. Le istanze P5 in UltraClusters possono scalare fino a 20.000 GPU H100 interconnesse con una rete nell'ordine dei petabit e fornire 20 exaflop di capacità di elaborazione aggregata.

Integrazione ottimale con altri servizi AWS

Le istanze P5 possono essere implementate utilizzando AWS Deep Learning AMI (DLAMI) e i Container AWS per il Deep Learning. Sono disponibili tramite servizi gestiti come Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), Batch AWS e altri ancora.

Testimonianze dei clienti

Anthropic realizza sistemi di IA affidabili, interpretabili e orientabili che avranno molte opportunità di creare valore a livello commerciale e a vantaggio pubblico.

"In Anthropic, stiamo lavorando per creare sistemi di IA affidabili, interpretabili e orientabili. Sebbene abbiano vantaggi significativi, i grandi sistemi di IA generali odierni possono anche essere imprevedibili, inaffidabili e opachi. Il nostro obiettivo è impegnarci per contribuire a risolvere questi problemi e implementare sistemi che le persone trovino utili. La nostra organizzazione è una delle poche al mondo che sta costruendo modelli di base nella ricerca sul DL. Questi modelli sono estremamente complessi. Per sviluppare e addestrare questi modelli all'avanguardia, dobbiamo implementarli in modo efficiente su grandi cluster di GPU. Attualmente facciamo largo impiego delle istanze P4 di Amazon EC2 e siamo entusiasti dell'introduzione delle istanze P5. Ci aspettiamo che offrano sostanziali vantaggi in termini di rapporto prezzo/prestazioni rispetto alle istanze P4d e che saranno disponibili sulla vasta scala necessaria per sviluppare LLM di nuova generazione e i prodotti correlati."

Tom Brown, cofondatore, Anthropic

Cohere, uno dei principali pionieri nell'IA linguistica, consente a ogni sviluppatore e azienda di creare prodotti incredibili con una tecnologia di elaborazione del linguaggio naturale (NLP) leader a livello mondiale, mantenendo i propri dati privati e sicuri

"Cohere è all'avanguardia nell'aiutare ogni azienda a sfruttare la potenza dell'IA linguistica per esplorare, generare, cercare e agire sulle informazioni in modo naturale e intuitivo, implementando le soluzioni su più piattaforme cloud nell'ambiente di dati più adatto per ciascun cliente. Le istanze P5 di Amazon EC2 basate su NVIDIA H100 consentiranno alle aziende di creare, crescere e dimensionare più velocemente grazie alla loro potenza di calcolo combinata con le funzionalità all'avanguardia di LLM e IA generativa di Cohere."

Aidan Gomez, CEO, Cohere

Registrati per creare un account AWS

Hugging Face ha la missione di democratizzare un "buon" ML.

"In qualità di community open source di ML in più rapida crescita, ora forniamo oltre 150.000 modelli preaddestrati e 25.000 set di dati sulla nostra piattaforma per la NLP, la visione artificiale, la biologia, l'apprendimento per rinforzo e altro ancora. Grazie ai significativi progressi negli LLM e nell'IA generativa, stiamo collaborando con AWS per sviluppare e contribuire ai modelli open source del prossimo futuro. Non vediamo l'ora di utilizzare le istanze P5 di Amazon EC2 tramite Amazon SageMaker su larga scala in UltraCluster con EFA per accelerare la distribuzione di nuovi modelli di IA di base per tutti."

Julien Chaumond, CTO e cofondatore, Hugging Face

Dettagli del prodotto

Dimensioni istanza	vCPU	Memoria di istanza (TiB)	GPU - H100	Memoria GPU	Larghezza di banda di rete	GPUDirectRDMA	GPU peer-to-peer	Storage dell’istanza (TB)	Larghezza di banda EBS (Gb/s)
p5.48xlarge	192	2	8	HBM3 da 640 GB	EFAv2 da 3.200 Gb/s	Sì	NVSwitch a 900 Gb/s	8 x 3.84 SSD NVMe	80

* I prezzi sono calcolati per Linux/Unix nella regione AWS Stati Uniti orientali (Virginia settentrionale) e arrotondati al centesimo più vicino. Per ulteriori dettagli, consulta la pagina dei prezzi di Amazon EC2.

Guida introduttiva alle istanze P5 per ML

Utilizzo di SageMaker

SageMaker è un servizio completamente gestito per la creazione, l'addestramento e l'implementazione di modelli di ML. Se utilizzato insieme alle istanze P5, consente di dimensionare più facilmente fino a decine, centinaia o migliaia di GPU per addestrare rapidamente un modello su qualsiasi scala senza preoccuparsi di configurare cluster e pipeline di dati.

Utilizzo di DLAMI o Container per il Deep Learning

Le DLAMI forniscono agli esperti di ML e ai ricercatori l'infrastruttura e gli strumenti necessari per velocizzare i processi di deep learning nel cloud su qualsiasi scala. I Container per il Deep Learning sono immagini Docker preinstallate con framework di DL che semplificano l'implementazione di ambienti di ML personalizzati poiché consentono di saltare il complicato processo di creazione e ottimizzazione degli ambienti ex novo.

Utilizzo di Amazon EKS o Amazon ECS

Se preferisci gestire i tuoi carichi di lavoro containerizzati tramite i servizi di orchestrazione dei container, puoi implementare le istanze P5 con Amazon EKS o Amazon ECS.

Nozioni di base sulle istanze P5 per l'HPC

Le istanze P5 sono una piattaforma ideale per eseguire simulazioni ingegneristiche, finanza computazionale, analisi sismiche, modellazione molecolare, genomica, renderizzazione e altri carichi di lavoro HPC basati su GPU. Le applicazioni HPC spesso richiedono prestazioni di rete elevate, archiviazione veloce, grandi quantità di memoria e funzioni di elaborazione di alto livello, oppure tutte queste caratteristiche insieme. Le istanze P5 supportano EFAv2, che consente alle applicazioni HPC che utilizzano Message Passing Interface (MPI) di dimensionarsi a migliaia di GPU. Batch AWS e AWS ParallelCluster consentono agli sviluppatori HPC di creare e dimensionare rapidamente applicazioni HPC distribuite.

Ulteriori informazioni »

Nozioni di base su AWS

Registrati per creare un account AWS

Registrati per creare un account AWS

Ottieni accesso istantaneo al Piano gratuito AWS.

Impara con semplici tutorial

Impara con i tutorial di 10 minuti

Esplora e impara con semplici tutorial.

Inizia a lavorare con EC2 nella console

Inizia a lavorare nella console

Inizia a creare con le guide dettagliate che ti aiutano ad avviare il tuo progetto AWS.