Passa al contenuto principale

Amazon EC2

Le istanze UltraServer P6e e P6 di Amazon EC2

Le massime prestazioni della GPU per training e inferenza dell'IA

Perché scegliere le istanze UltraServer P6e e P6 di Amazon EC2?

Le istanze UltraServer Amazon Elastic Compute Cloud (Amazon EC2) P6e, accelerate da NVIDIA GB200 NVL72, offrono le massime prestazioni GPU in Amazon EC2. Le P6e-GB200 offrono oltre 20 volte la potenza di calcolo e oltre 11 volte la memoria sotto NVIDIA NVLink™ rispetto alle istanze P5en. Questi UltraServer sono ideali per i carichi di lavoro di intelligenza artificiale più intensivi dal punto di vista computazionale e della memoria, come il training e l'implementazione di modelli all’avanguardia a scala multimiliardaria di parametri. Le UltraServer P6e-GB300, accelerate da NVIDIA GB300 NVL72, offrono 1,5 volte più memoria GPU e 1,5 volte più GPU TFLOPS (FP4, senza sparsità) rispetto alle istanze P6e-GB200. Con quasi 20 TB di memoria GPU per UltraServer, P6e-GB300 è ideale per modelli di IA e casi d'uso su una scala di trilioni di parametri.

Le istanze P6 di Amazon EC2, accelerate da NVIDIA Blackwell e Blackwell Ultra GPUs, rappresentano un’opzione ideale per applicazioni di training e inferenza di medie e grandi dimensioni. Le istanze P6-B200 offrono prestazioni fino a 2 volte superiori rispetto alle istanze P5en per training e inferenza IA, mentre le P6-B300 garantiscono alte prestazioni per training e inferenza AI su larga scala. Queste istanze sono adatte a modelli sofisticati come mixture of experts (MoE) e modelli di reasoning con trilioni di parametri.

Le istanze UltraServer P6e e P6 consentono un training più veloce per i modelli di IA di nuova generazione e migliorano le prestazioni di inferenza in tempo reale in produzione. È possibile utilizzare gli UltraServer P6e e le istanze P6 per addestrare modelli di fondazione (FM) all’avanguardia come MoE e modelli di reasoning e implementarli in applicazioni AI generative e agentiche, come generazione di contenuti, copiloti aziendali e agenti di ricerca approfondita.

Vantaggi

UltraServer P6e

Con P6e-GB300, i clienti possono sfruttare 1,5 volte più memoria GPU e 1,5 volte più GPU TFLOPS (FP4, senza sparsità) rispetto a P6e-GB200 per migliorare le prestazioni dei carichi di lavoro di IA ad utilizzo intensivo di calcolo e memoria.

Con UltraServer P6e-GB200, i clienti possono accedere fino a 72 GPU Blackwell in un singolo dominio NVLink per utilizzare 360 petaflop di calcolo FP8 (senza sparsità) e 13,4 TB di memoria ad alta larghezza di banda (HBM3e). Gli UltraServer P6e-GB200 offrono fino a 130 terabyte al secondo di connettività NVLink a bassa latenza tra GPU e fino a 28,8 terabit al secondo di networking totale Elastic Fabric Adapter (EFAv4) per training e inferenza IA. Questa architettura UltraServer su P6e-GB200 consente ai clienti di ottenere un miglioramento significativo in calcolo e memoria, con TFLOPS GPU fino a 20 volte, memoria GPU 11 volte e larghezza di banda di memoria GPU aggregata con NVLink 15 volte superiore rispetto a P5en.

Istanze P6

Le istanze P6 B300-8x forniscono 8 GPU NVIDIA Blackwell Ultra con 2,1 TB di memoria GPU a elevata larghezza di banda, reti EFA da 6,4 Tbps, throughput ENA dedicato da 300 Gbps e 4 TB di memoria di sistema. Le istanze P6-B300 offrono una larghezza di banda di rete doppia, una dimensione di memoria GPU 1,5 volte e TFLOPS GPU 1,5 volte (a FP4, senza scarsità) rispetto alle istanze P6-B200. Questi miglioramenti rendono le P6-B300 adatte al training e inferenza di ML su larga scala.

Le istanze P6-B200 offrono 8 NVIDIA Blackwell GPUs con 1440 GB di memoria GPU ad alta larghezza di banda, processori Intel Xeon Scalable di 5ª generazione (Emerald Rapids), 2 TiB di memoria di sistema, fino a 14,4 TBp/s di banda NVLink bidirezionale totale e 30 TB di archiviazione locale NVMe. Queste istanze presentano TFLOP GPU fino a 2,25x, dimensioni di memoria GPU 1,27x e larghezza di banda di memoria GPU 1,6x rispetto alle istanze P5en.

 

Le istanze UltraServer P6e e P6 sono basate su AWS Nitro System con hardware e firmware specializzati progettati per garantire che nessuno, incluso il personale AWS, possa accedere ai tuoi carichi di lavoro e dati di intelligenza artificiale sensibili. Il Nitro System, che gestisce rete, archiviazione e altre funzioni I/O, può distribuire aggiornamenti firmware, bugfix e ottimizzazioni senza interrompere le operazioni. Ciò aumenta la stabilità e riduce i downtime, fondamentale per rispettare le tempistiche di training e l’esecuzione di applicazioni di IA in produzione.

Per abilitare il training distribuito efficiente, le istanze UltraServer P6e e P6 utilizzano Elastic Fabric Adapter di quarta generazione (EFAv4). EFAv4 utilizza il protocollo Scalable Reliable Datagram (SRD)per instradare intelligentemente il traffico su più percorsi di rete, mantenendo operazioni fluide anche in caso di congestione o guasti.

Le istanze UltraServer P6e e P6 sono distribuite in UltraClusters Amazon EC2, che consentono di scalare fino a decine di migliaia di GPU in una rete non bloccante a scala petabit.

Caratteristiche

Ogni GPU NVIDIA Blackwell presente nelle istanze P6-B200 dispone di un Transformer Engine di seconda generazione e supporta nuovi formati di precisione come FP4. Supporta NVLink di quinta generazione, un’interconnessione più veloce e ampio che offre fino a 1,8 TBp/s larghezza di banda per GPU.

Il Grace Blackwell Superchip, componente chiave di P6e-GB200, connette due GPU NVIDIA Blackwell ad alte prestazioni e una CPU NVIDIA Grace tramite interconnessione NVIDIA NVLink-C2C. Ogni Superchip fornisce 10 petaflop di calcolo FP8 (senza sparsità) e fino a 372 GB di HBM3e. Con l'architettura superchip, 2 GPU e 1 CPU sono collocate all'interno di un modulo di calcolo, aumentando la larghezza di banda tra GPU e CPU di un ordine di grandezza rispetto alle istanze P5en di generazione attuale.

Le GPU NVIDIA Blackwell Ultra che alimentano le istanze P6-B300 offrono un incremento di 2 volte nella larghezza di banda della rete, 1,5 volte la memoria GPU e fino a 1,5 volte i miglioramenti FP4 (senza sparsità) in TFLOP effettivi rispetto alle P6-B200.

Il Grace Blackwell Superchip presente nei UltraServer P6e-GB300 connette due NVIDIA Blackwell Ultra GPU con una CPU NVIDIA Grace, fornendo 1,5 volte la memoria GPU e fino a 1,5 volte i miglioramenti di calcolo FP4 (senza sparsità).

Le istanze UltraServer P6e e P6 forniscono 400 GB ps per GPU di rete EFAv4 per un totale di 28,8 Tbps per UltraServer P6e-GB200 e 3,2 Tbps per istanza P6-B200.

Le istanze P6-B300 offrono una larghezza di banda della rete di 6,4 Tbps, il doppio rispetto alle istanze P6-B200 grazie a PCle Gen6, e sono progettate per l'addestramento dei modelli di deep learning distribuito su larga scala.

Le istanze UltraServer P6e e P6 supportano Amazon FSx per Lustre per accedere ai dati a centinaia di GBp/s di throughput e milioni di IOPS richiesti per training e inferenza di IA su larga scala. Le istanze UltraServer P6e supportano fino a 405 TB di archiviazione locale NVMe SSD, mentre le P6 supportano fino a 30 TB di archiviazione locale NVMe SSD per un accesso rapido a set di dati di grandi dimensioni. Inoltre, è possibile utilizzare uno spazio di archiviazione economico e virtualmente illimitato con Amazon Simple Storage Service (Amazon S3).

Dettagli del prodotto

Tipi di istanza

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
Instance storage (TB)
Network bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
p6-b300.48xlarge

8 Ultra

2,144 HBM3e

192

4.096

8 x 3,84

6.4

100

No

p6-b200.48xlarge

8

1,432 HBM3e

192

2.048

8 x 3,84

3,2

100

No

p6e-gb 200,36 x large

4

740 HBM3e

144

960

3 x 7,5

3,2

60

Sì*

*Le istanze P6e-GB200 sono disponibili solo negli UltraServer

Tipo di UltraServer

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
UltraServer Storage (TB)
Aggregate EFA bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
u-p6e-gb200x72

72

13.320

2.592

17.280

405

28.800

1.080

u-p6e-gb200x36

36

6.660

1.296

8.640

202,5

14.400

540

Nozioni di base sui casi d'uso di ML

Amazon SageMaker AI è un servizio completamente gestito per la creazione, l’addestramento e l’implementazione di modelli ML. Con Amazon SageMaker HyperPod, puoi scalare più facilmente fino a decine, centinaia o migliaia di GPU per addestrare rapidamente un modello su qualsiasi scala, senza preoccuparti di configurare e gestire cluster di addestramento resilienti. (Supporto P6e-GB200 disponibile a breve)

AWS Deep Learning AMI (DLAMI) fornisce ai professionisti e agli esperti di ML l'infrastruttura e gli strumenti necessari per velocizzare i processi di deep learning nel cloud, su qualsiasi scala. I Container AWS per il Deep Learning sono immagini Docker preinstallate con framework di DL, semplificano l'implementazione degli ambienti di ML personalizzati poiché consentono di saltare il complicato processo di creazione e ottimizzazione degli ambienti ex novo.

Le istanze UltraServer P6e saranno disponibili anche tramite NVIDIA NVIDA DGX Cloud, un ambiente completamente gestito che include l’intero software stack di IA di NVIDIA. Con NVIDIA DGX Cloud ottieni le più recenti ottimizzazioni NVIDIA, le ricette di benchmarking e la loro competenza tecnica.

Ulteriori informazioni

Hai trovato quello che cercavi?

Facci sapere la tua opinione in modo da migliorare la qualità dei contenuti delle nostre pagine