Passer au contenu principal

Amazon EC2

Instances Amazon EC2 P6e UltraServers et P6

Les performances GPU les plus élevées pour l’entraînement et l’inférence de l’IA

Pourquoi choisir les instances P6e UltraServers Amazon EC2 et P6 ?

Les instances Amazon Elastic Compute Cloud (Amazon EC2) P6e UltraServers, accélérées par NVIDIA GB200 NVL72, offrent les meilleures performances GPU d’Amazon EC2. L’instance P6e-GB200 offre une puissance de calcul 20 fois supérieure et une mémoire 11 fois supérieure à celle des instances P5en sous NVIDIA NVLinkTM. Ces instances UltraServers sont idéales pour les charges de travail IA les plus gourmandes en calcul et en mémoire, telles que l’entraînement et le déploiement de modèles de pointe à l’échelle de plusieurs milliers de milliards de paramètres. Les instances UltraServers P6e-GB300, accélérées par NVIDIA GB300 NVL72, offrent 1,5 fois plus de mémoire GPU et 1,5 fois plus de TFLOPS GPU (FP4, sans dispersion) que les instances P6e-GB200. Avec près de 20 To de mémoire GPU par UltraServer, l’instance P6e-GB300 est idéale pour les modèles d’IA et les cas d’utilisation à l’échelle des milliers de milliards de paramètres.

Les instances Amazon EC2 P6, accélérées par les GPU NVIDIA Blackwell et Blackwell Ultra, constituent une option idéale pour les applications d’entraînement et d’inférence à moyenne et grande échelle. Les instances P6-B200 offrent jusqu’à deux fois plus de performances que les instances P5en pour l’entraînement et l’inférence d’IA, tandis que les instances P6-B300 offrent des performances élevées pour l’entraînement et l’inférence d’IA à grande échelle. Ces cas se prêtent bien à des modèles sophistiqués tels que les modèles mixtes d’experts (MoE) et les modèles de raisonnement comportant des milliers de milliards de paramètres.

Les instances P6e UltraServers et P6 permettent un entraînement plus rapide des modèles d’IA de nouvelle génération et améliorent les performances pour l’inférence en temps réel en production. Vous pouvez utiliser les instances P6e UltraServers et les instances P6 pour entraîner des modèles de fondation (FM) de pointe tels que les modèles MoE et de raisonnement, puis les déployer dans des applications d’IA générative et agentique telles que la génération de contenu, les copilotes d’entreprise et les agents de recherche approfondie.

Avantages

P6e UltraServers

Avec l’instance P6e-GB300, les clients peuvent bénéficier d’une mémoire GPU 1,5 fois supérieure et d’une puissance de calcul GPU 1,5 fois supérieure (FP4, sans dispersion) par rapport à l’instance P6e-GB200, afin d’améliorer les performances pour les charges de travail d’IA les plus gourmandes en calcul et en mémoire.

Avec P6e-GB200 UltraServers, les clients peuvent accéder à 72 GPU Blackwell au sein d’un domaine NVLink pour utiliser 360 pétaflops de calcul FP8 (sans dispersion) et 13,4 To de mémoire totale à bande passante élevée (HBM3e). Les instances P6e-GB200 UltraServers offrent une connectivité NVLink à faible latence pouvant atteindre 130 téraoctets par seconde entre les GPU et un réseau Elastic Fabric Adapter (EFAv4) total pouvant atteindre 28,8 téraoctets par seconde pour l’entraînement et l’inférence d’IA. Cette architecture UltraServer sur P6e-GB200 permet aux clients de bénéficier d’une amélioration radicale en termes de calcul et de mémoire, avec jusqu’à 20 fois plus de TFLOPS GPU, 11 fois plus de mémoire GPU et 15 fois plus de bande passante mémoire GPU agrégée sous NVLink par rapport au P5en.

Instances P6

Les instances P6 B300-8x fournissent huit GPU NVIDIA Blackwell Ultra avec 2,1 To de mémoire GPU à bande passante élevée, un réseau EFA de 6,4 Tbit/s, un débit ENA dédié de 300 Gbit/s et 4 To de mémoire système. Les instances P6-B300 offrent une bande passante du réseau deux fois plus élevée, une mémoire GPU 1,5 fois plus importante et une puissance de calcul GPU 1,5 fois supérieure (en FP4, sans dispersion) par rapport aux instances P6-B200. Ces améliorations rendent les instances P6-B300 particulièrement adaptées à l’entraînement et à l’inférence ML à grande échelle.

Les instances P6-B200 fournissent 8 GPU NVIDIA Blackwell avec 1 440 Go de mémoire GPU à bande passante élevée, des processeurs Intel Xeon Scalable de 5e génération (Emerald Rapids), 2 TiB de mémoire système, jusqu’à 14,4 To/s de bande passante NVLink bidirectionnelle totale et 30 To de stockage NVMe local. Ces instances offrent jusqu’à 2,25 fois plus de TFLOP GPU, 1,27 fois plus de mémoire GPU et 1,6 fois plus de bande passante mémoire GPU par rapport aux instances P5en.

 

Les instances P6e UltraServers et P6 sont optimisées par le AWS Nitro System, qui comprend du matériel et des micrologiciels spécialisés conçus pour appliquer des restrictions afin que personne, y compris les employés d’AWS, ne puisse accéder à vos charges de travail et données sensibles liées à l’IA. Le système Nitro, qui gère la mise en réseau, le stockage et d’autres fonctions d’E/S, peut déployer des mises à jour de micrologiciels, des corrections de bogues et des optimisations tout en restant opérationnel. Cela augmente la stabilité et réduit la durée d’indisponibilité, ce qui est essentiel pour respecter les délais d’entraînement et exécuter les applications d’IA en production.

Pour permettre un entraînement distribué efficace, les instances P6e UltraServers et P6 utilisent la quatrième génération du réseau Elastic Fabric Adapter (EFAv4). EFAv4 utilise le protocole SRD (Scalable Reliable Datagram) pour acheminer intelligemment le trafic sur plusieurs chemins réseau afin de maintenir un fonctionnement fluide même en cas de congestion ou de défaillance.

Les instances P6e UltraServers et P6 sont déployées dans des Amazon EC2 UltraClusters, qui permettent une mise à l’échelle jusqu’à des dizaines de milliers de GPU au sein d’un réseau non bloquant à l’échelle du pétaoctet.

Caractéristiques

Chaque GPU NVIDIA Blackwell équipant les instances P6-B200 intègre un moteur Transformer de deuxième génération et prend en charge de nouveaux formats de précision tels que FP4. Il prend en charge NVLink de cinquième génération, une interconnexion plus rapide et plus large offrant jusqu’à 1,8 To/s de bande passante par GPU.

La super puce Grace Blackwell, composant clé de P6e-GB200, relie deux GPU NVIDIA Blackwell haute performance et un CPU NVIDIA Grace à l’aide de l’interconnexion NVIDIA NVLink-C2C. Chaque super puce offre une puissance de calcul FP8 de 10 pétaflops (sans dispersion) et jusqu’à 372 Go de HBM3e. Grâce à l’architecture à super puce, deux GPU et un CPU sont regroupés dans un seul module de calcul, ce qui augmente considérablement la bande passante entre le GPU et le CPU par rapport aux instances P5en de la génération actuelle.

Les GPU NVIDIA Blackwell Ultra qui équipent les instances P6-B300 offrent une bande passante du réseau deux fois plus élevée, une mémoire GPU 1,5 fois plus importante et des performances de calcul FP4 jusqu’à 1,5 fois supérieures (sans dispersion) en TFLOP effectifs par rapport aux instances P6-B200.

La super puce Grace Blackwell intégrée aux instances P6e-GB300 UltraServers connecte deux GPU NVIDIA Blackwell Ultra à un CPU NVIDIA Grace, offrant ainsi 1,5 fois plus de mémoire GPU et jusqu’à 1,5 fois plus de puissance de calcul FP4 (sans dispersion).

Les instances P6e UltraServers et P6 fournissent 400 Go/s par GPU de réseau EFAv4, soit un total de 28,8 To/s par instance P6e-GB200 UltraServer et 3,2 To/s par instance P6-B200.

Les instances P6-B300 offrent une bande passante du réseau de 6,4 To/s, soit deux fois plus que les instances P6-B200 grâce à la technologie PCle Gen6, et sont conçues pour l’entraînement à grande échelle de modèles de deep learning distribués.

Les instances P6e UltraServers et P6 prennent en charge les systèmes de fichiers Amazon FSx pour Lustre. Ainsi, vous pouvez accéder aux données avec un débit de plusieurs centaines de Go/s et des millions d’IOPS pour l’entraînement et l’inférence à grande échelle de l’IA. Les instances P6e UltraServers prennent en charge jusqu’à 405 To de stockage SSD NVMe local, tandis que les instances P6 prennent en charge jusqu’à 30 To de stockage SSD NVMe local pour un accès rapide à des jeux de données volumineux. Vous pouvez également utiliser un stockage rentable pratiquement illimité avec Amazon Simple Storage Service (Amazon S3).

Informations sur le produit

Types d’instances

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
Instance storage (TB)
Network bandwidth (Tbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
p6-b300.48xlarge

8 Ultra

2 144 HBM3e

192

4 096

8 x 3,84

6.4

100

Non

p6-b200.48xlarge

8

1 432 HBM3e

192

2 048

8 x 3,84

3,2

100

Non

p6e-gb200.36xlarge

4

740 HBM3e

144

960

3 x 7,5

3,2

60

Oui*

* Les instances P6e-GB200 ne sont disponibles que dans les UltraServers

Types d’UltraServer

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
UltraServer Storage (TB)
Aggregate EFA bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
u-p6e-gb200x72

72

13 320

2 592

17 280

405

28 800

1 080

Oui

u-p6e-gb200x36

36

6 660

1 296

8 640

202,5

14 400

540

Oui

Premiers pas avec les cas d’utilisation du ML

Amazon SageMaker AI est un service entièrement géré pour créer, entraîner et déployer des modèles ML. Avec Amazon SageMaker HyperPod, vous pouvez facilement mettre à l’échelle des dizaines, des centaines ou des milliers de GPU pour entraîner rapidement un modèle à n’importe quelle échelle, sans vous soucier de la configuration et de la gestion de clusters d’entraînement résilients. (Le support de l’instance P6e-GB200 sera bientôt disponible)

AWS Deep Learning AMI (DLAMI) fournit aux praticiens et aux chercheurs en ML l’infrastructure et les outils nécessaires pour accélérer la DL dans le cloud, à n’importe quelle échelle. Les AWS Deep Learning Containers sont des images Docker comportant des cadres de DL préinstallés qui rationalisent le déploiement d’environnements de ML personnalisés en vous permettant d’éliminer les tâches complexes de création et d’optimisation de vos environnements de A à Z.

Si vous préférez gérer vos propres charges de travail conteneurisées via des services d’orchestration de conteneurs, vous pouvez déployer des instances P6e-GB200 UltraServers et P6-B200 avec Amazon Elastic Kubernetes Service (Amazon EKS) ou Amazon Elastic Container Service (Amazon ECS).

Les instances P6e UltraServers seront également disponibles via NVIDIA NVIDA DGX Cloud, un environnement entièrement géré doté de la pile logicielle d’IA complète de NVIDIA. Avec NVIDIA DGX Cloud, vous bénéficiez des dernières optimisations, des recettes d’analyse comparative et de l’expertise technique de NVIDIA.

En savoir plus

Avez-vous trouvé les informations que vous recherchiez ?

Faites-nous part de vos commentaires afin que nous puissions améliorer le contenu de nos pages