Passer au contenu principal

Instances Amazon EC2 P5

Instances basées sur GPU à hautes performances pour les applications de deep learning et de HPC

Pourquoi choisir les instances Amazon EC2 P5 ?

Les instances Amazon Elastic Compute Cloud (Amazon EC2) P5 optimisées par les GPU NVIDIA H100 Tensor Core et les instances P5e et P5en optimisées par les GPU NVIDIA H200 Tensor Core offrent des performances élevées dans Amazon EC2 pour les applications de deep learning (DL) et de calcul haute performance (HPC). Elles vous permettent d’accélérer votre temps de solution jusqu’à 4 fois par rapport aux instances EC2 basées sur le GPU de la génération précédente, et de réduire le coût d’entraînement des modèles ML jusqu’à 40 %. Ces instances vous permettent d’itérer vos solutions plus rapidement et de les commercialiser plus rapidement. Vous pouvez utiliser les instances P5, P5e et P5en pour entraîner et déployer de grands modèles de langage (LLM) complexes et des modèles de diffusion alimentant les applications d’IA générative. Ces applications incluent la réponse aux questions, la génération de code, la génération de vidéos et d’images et la reconnaissance vocale. Ces instances vous permettent également de déployer à grande échelle des applications HPC dans les domaines de la découverte pharmaceutique, de l’analyse sismique, des prévisions météorologiques et de la modélisation financière.

Pour améliorer les performances et réduire les coûts, les instances P5 et P5e complètent des GPU NVIDIA H100 et H200 Tensor Core avec des performances de processeur deux fois supérieures, une mémoire système deux fois plus élevée et un stockage local quatre fois plus élevé que les instances basées sur des GPU de génération précédente. Les instances P5en associent les GPU NVIDIA H200 Tensor Core à un CPU Intel Sapphire Rapids haute performance, permettant ainsi un PCIe Gen5 entre le CPU et le GPU. En comparaison avec les instances P5e et P5, les instances P5en fournissent jusqu’à 4x plus de bande passante entre le CPU et le GPU et une latence réseau inférieure, ce qui améliore les performances d’entraînement distribué. La prise en charge des instances P5 et P5e fournit jusqu’à 3 200 Gbit/s de réseau à l’aide d’Elastic Fabric Adapter (EFA) de deuxième génération. Les instances P5en avec la troisième génération d’EFA et Nitro v5 permettent de réduire jusqu’à 35 % la latence par rapport aux instances P5 qui utilisent la génération précédente d’EFA et de Nitro. Ainsi, les performances de communication collective sont améliorées pour les charges de travail d’entraînement distribué telles que le deep learning, l’IA générative, le traitement des données en temps réel et les applications de calcul haute performance (HPC). Afin de fournir des capacités de calcul à grande échelle avec une faible latence, ces instances sont déployées dans les Amazon EC2 UltraClusters qui permettent d’accéder à jusqu’à 20 000 GPU H100 ou H200 interconnectés avec un réseau non bloquant à l’échelle du pétabit. Les instances P5 et P5e et P5en dans les EC2 UltraClusters peuvent fournir jusqu’à 20 exaflops de capacité de calcul agrégée, soit des performances équivalentes à celles d’un superordinateur.

Instances Amazon EC2 P5

Avantages

Les instances P5, P5e et P5en peuvent entraîner de larges modèles d’IA générative à grande échelle et offrent des performances jusqu’à quatre fois supérieures à celles des instances EC2 basées sur des GPU de génération précédente.

Les instances P5, P5e et P5en réduisent les temps d’entraînement et de résolution des problèmes de plusieurs semaines à quelques jours seulement. Cela vous permet d’itérer à un rythme plus rapide et d’accéder au marché plus rapidement.

Les instances P5, P5e et P5en permettent de réaliser jusqu’à 40 % d’économies sur les coûts d’entraînement DL et d’infrastructure HPC par rapport aux instances EC2 basées sur des GPU de génération précédente.

Les instances P5, P5e et P5en fournissent jusqu’à 3 200 Gbit/s de mise en réseau EFA. Ces instances sont déployées dans EC2 UltraClusters et fournissent 20 exaflops de capacité de calcul agrégée.

Caractéristiques

Les instances P5 fournissent jusqu’à 8 GPU NVIDIA H100 avec un total de 640 Go de mémoire GPU HBM3 par instance. Les instances P5e et P5en fournissent jusqu’à huit GPU NVIDIA H200 avec jusqu’à 1 128 Go de mémoire GPU HBM3e par instance. Les deux instances prennent en charge jusqu’à 900 Go/s d’interconnexion GPU NVSwitch (un total de 3,6 To/s de bande passante bisectionnelle dans chaque instance), de sorte que chaque GPU peut communiquer avec tous les autres GPU de la même instance avec une latence à saut unique.

Les GPU NVIDIA H100 et H200 sont dotés d’un nouveau moteur de transformation qui gère intelligemment et choisit dynamiquement entre les calculs FP8 et 16 bits. Cette fonctionnalité permet d’accélérer l’entraînement DL sur les LLM par rapport aux GPU A100 de génération précédente. Pour les charges de travail HPC, les GPU NVIDIA H100 et H200 disposent de nouvelles instructions DPX qui accélèrent davantage les algorithmes de programmation dynamique par rapport aux GPU A100.

Les instances P5, P5e et P5en fournissent jusqu’à 3 200 Gbit/s de mise en réseau EFA. L’interface EFA est également couplée à la technologie GPUDirect RDMA de NVIDIA pour permettre une communication GPU à GPU à faible latence entre les serveurs, avec contournement du système d’exploitation.

Les instances P5, P5e et P5en prennent en charge les systèmes de fichiers Amazon FSx pour Lustre. Ainsi, vous pouvez accéder aux données avec un débit de plusieurs centaines de Go/s et des millions d’IOPS pour les charges de travail de deep learning (DL) et de calcul haute performance (HPC) à grande échelle. Chaque instance prend également en charge jusqu’à 30 To de stockage SSD NVMe local pour un accès rapide à de grands jeux de données. Vous pouvez également utiliser un stockage rentable pratiquement illimité avec Amazon Simple Storage Service (Amazon S3).

Témoignages de clients

Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs commerciaux grâce aux instances Amazon EC2 P4.

Anthropic

Chez Anthropic, nous nous efforçons de créer des systèmes d’IA fiables, interprétables et orientables. Bien que les grands systèmes généraux d’IA d’aujourd’hui puissent présenter des avantages importants, ils peuvent également être imprévisibles, peu fiables et opaques. Notre objectif est de progresser sur ces questions et de déployer des systèmes que les gens trouvent utiles. Notre entreprise est l'une des rares au monde à élaborer des modèles fondamentaux dans le domaine de la recherche sur le DL. Ces modèles sont très complexes, et pour développer et entraîner ces modèles de pointe, nous devons les distribuer efficacement sur de grands clusters de GPU. Nous utilisons largement les instances Amazon EC2 P4 aujourd’hui, et nous sommes enthousiastes à l’idée de lancer des instances P5. Nous nous attendons à ce qu’elles offrent des avantages substantiels en termes de rapport prix/performances par rapport aux instances P4d, et elles seront disponibles à l’échelle massive requise pour créer des LLM de nouvelle génération et des produits connexes.

Tom Brown, cofondateur d’Anthropic
Missing alt text value

AON

Chez AON, nous avons révolutionné la manière dont les compagnies d’assurance abordent les défis informatiques complexes. Les projections actuarielles nécessitent davantage de simulations pour modéliser les risques financiers et les garanties complexes, mais les systèmes hérités déconnectés et les tâches manuelles sujettes à erreurs limitent les analyses détaillées et rigoureuses. Les instances Amazon EC2 P5 ont changé la donne pour nous. Nous pouvons désormais exécuter en quelques heures des modèles de machine learning et des prévisions économiques qui prenaient auparavant plusieurs jours. La possibilité d’utiliser une seule instance GPU H100 (p5.4xlarge) nous permet non seulement de gagner du temps, mais aussi d’optimiser nos ressources de calcul. Grâce à cette technologie révolutionnaire, nos clients bénéficient d’informations sans précédent sur la gestion des risques et la tarification des produits.

Van Beach, responsable mondial des solutions vie, AON

Missing alt text value

Cohere

Cohere joue un rôle de premier plan en aidant chaque entreprise à exploiter la puissance de l’IA linguistique pour explorer, générer, rechercher et exploiter des informations de manière naturelle et intuitive, en la déployant sur de multiples plateformes cloud dans l’environnement de données le mieux adapté à chaque client. Les instances Amazon EC2 P5 alimentées par NVIDIA H100 permettront aux entreprises de créer, de croître et d’évoluer plus rapidement grâce à leur puissance de calcul combinée aux capacités de pointe de Cohere en matière de LLM et d’IA générative.

Aidan Gomez, PDG de Cohere
Missing alt text value

Hugging Face

En tant que communauté open source pour le ML qui connaît la croissance la plus rapide, nous proposons désormais plus de 150 000 modèles pré-entraînés et 25 000 jeux de données sur notre plateforme pour la PNL, la vision par ordinateur, la biologie, l’apprentissage par renforcement, etc. Grâce aux avancées significatives en matière de LLM et d’IA générative, nous travaillons avec AWS pour créer et contribuer aux modèles open source de demain. Nous sommes impatients d’utiliser les instances Amazon EC2 P5 via Amazon SageMaker à grande échelle dans UltraClusters avec EFA afin d’accélérer la mise à disposition de nouveaux modèles d’IA de base pour tous.

Julien Chaumond, directeur technique et cofondateur de Hugging Face
Missing alt text value

Informations sur le produit

Instance Size
vCPUs
Instance Memory
GPU
GPU memory
Network Bandwidth (Gbps)
GPUDirect RDMA
GPU Peer to Peer
Instance Storage (TB)
EBS Bandwidth (Gbps)
p5.4xlarge

16

256 Gio

1 H100

80 Go

HBM3

EFA 100 Gbit/s

Non*

Non applicable*

3.84 SSD NVMe

10

p5.48xlarge
192

2 Tio

8 H100
640 Go
HBM3
EFA à 3200 Gbit/s
Oui
NVSwitch 900 Go/s
8 x 3.84 (SSD NVMe)
80
p5e.48xlarge
192

2 Tio

8 H200
1128 Go
HBM3e
EFA à 3200 Gbit/s
Oui
NVSwitch 900 Go/s
8 x 3.84 (SSD NVMe)
80
p5en.48xlarge
192

2 Tio

8 H200
HBM3e 1 128 Go
EFA 3 200 Gbit/s
Oui
NVSwitch 900 Go/s
8 x SSD NVMe 3,84
100

* GPUDirect RDMA n’est pas pris en charge dans P5.4xlarge

Premiers pas avec les cas d’utilisation du ML

SageMaker est un service entièrement géré pour créer, entraîner et déployer des modèles de ML. Avec SageMaker HyperPod, vous pouvez facilement mettre à l’échelle des dizaines, des centaines ou des milliers de GPU pour entraîner rapidement un modèle à n’importe quelle échelle, sans vous soucier de la configuration et de la gestion de clusters d’entraînement résilients.

DLAMI fournit aux praticiens et chercheurs en ML l’infrastructure et les outils nécessaires pour accélérer la DL dans le cloud, à n’importe quelle échelle. Les Deep Learning Containers sont des images Docker comportant des cadres de DL préinstallés qui rationalisent le déploiement d’environnements de ML personnalisés en vous permettant d’éliminer les tâches complexes de création et d’optimisation de vos environnements de A à Z.

Si vous préférez gérer vos propres charges de travail conteneurisées via des services d’orchestration de conteneurs, vous pouvez déployer des instances P5, P5e et P5en avec Amazon EKS ou Amazon ECS.

Premiers pas avec les cas d’utilisation du HPC

Les instances P5, P5e et P5en sont une plateforme idéale pour exécuter des simulations d’ingénierie, des calculs financiers, des analyses sismiques, des modélisations moléculaires, de la génomique, du rendu et d’autres charges de travail HPC basées sur des GPU. Les applications HPC exigent souvent des performances réseau élevées, un stockage rapide, d’importantes capacités de mémoire, des capacités de calcul élevées ou tous ces éléments. Les trois types d’instances prennent en charge EFA qui permet aux applications HPC utilisant le MPI (Message Passing Interface) mettre à l’échelle leur nombre de GPU jusqu’à plusieurs milliers. AWS Batch et AWS ParallelCluster aident les développeurs HPC à créer et mettre à l’échelle rapidement des applications HPC distribuées.

En savoir plus