- Amazon EC2
- Types d’instances
- Instances P4
Instances Amazon EC2 P4
Haute performance pour l'entraînement ML et les applications HPC dans le cloud
Pourquoi choisir les instances Amazon EC2 P4 ?
Les instances Amazon Elastic Compute Cloud (Amazon EC2) P4d offrent des performances élevées pour l’entraînement du machine learning (ML) et les applications de calcul haute performance (HPC) dans le cloud. Les instances P4d sont optimisées par les GPU NVIDIA A100 Tensor Core et offrent un débit élevé de premier ordre et une mise en réseau à faible latence. Ces instances prennent en charge la mise en réseau d'instances à 400 Gbit/s. Les instances P4d permettent de réduire jusqu'à 60 % le coût d'entraînement des modèles de ML, avec une performance moyenne 2,5 fois supérieure pour les modèles de deep learning par rapport aux instances P3 et P3dn de la génération précédente.
Les instances P4d sont déployées dans des clusters appelés Amazon EC2 UltraClusters qui comprennent des capacités de calcul, de mise en réseau et de stockage hautes performances dans le cloud. Chaque UltraCluster EC2 figure parmi les supercalculateurs les plus puissants au monde, ce qui vous permet d'exécuter l'entraînement ML multinœuds et les charges de travail HPC distribuées les plus complexes. Vous pouvez facilement passer de quelques GPU NVIDIA A100 à des milliers dans les UltraClusters EC2 en fonction des besoins de vos projets en ML ou HPC.
Les chercheurs, les scientifiques des données et les développeurs peuvent utiliser les instances P4d pour entraîner des modèles ML pour des cas d'utilisation, tels que le traitement du langage naturel, la détection et la classification d'objets, et les moteurs de recommandation. Ils peuvent également les utiliser pour exécuter des applications HPC comme la découverte de médicaments, l'analyse sismique et la modélisation financière. Contrairement aux systèmes sur site, vous pouvez accéder à une capacité de calcul et de stockage pratiquement illimitée, faire évoluer votre infrastructure en fonction des besoins de votre entreprise et lancer en quelques minutes une tâche d'entraînement ML multinœuds ou une application HPC distribuée étroitement couplée, sans frais d'installation ou de maintenance.
Annonce des nouvelles instances Amazon EC2 P4d
Avantages
Avec la dernière génération de GPU NVIDIA A100 Tensor Core, chaque instance P4d fournit en moyenne des performances de DL 2,5 fois supérieures à celles des instances P3 de la génération précédente. Les UltraClusters EC2 des instances P4d aident les développeurs, les scientifiques des données et les chercheurs à exécuter au quotidien leurs charges de travail ML et HPC les plus complexes grâce à des performances de type supercalculateur sans coûts initiaux ni engagements à long terme. La réduction du temps d'entraînement avec les instances P4d augmente la productivité, ce qui aide les développeurs à se concentrer sur leur mission principale, à savoir intégrer l'intelligence ML dans les applications métier.
Les développeurs peuvent passer aisément à des milliers de GPU avec les UltraClusters EC2 des instances P4d. La mise en réseau à haut débit et à faible latence avec prise en charge de la mise en réseau d'instances à 400 Gbit/s, ainsi que des technologies Elastic Fabric Adapter (EFA) et GPUDirect RDMA, permettent d'accélérer l'entraînement des modèles ML à l'aide de techniques de montée en puissance/distribuées. EFA utilise la bibliothèque de communications collectives NVIDIA (NCCL) pour mettre à l'échelle des milliers de GPU. La technologie GPUDirect RDMA permet quant à elle une communication GPU à GPU à faible latence entre les instances P4d.
Les instances P4d permettent de réduire jusqu'à 60 % le coût d'entraînement des modèles ML par rapport aux instances P3. En outre, les instances P4d sont disponibles à l'achat en tant qu'instances Spot. Les instances Spot tirent parti de la capacité d'instance EC2 inutilisée et peuvent réduire significativement vos coûts EC2 jusqu'à 90 % par rapport aux prix à la demande. Grâce à la réduction des coûts d'entraînement ML offerte par les instances P4d, les budgets peuvent être réaffectés pour intégrer davantage d'intelligence ML dans les applications métier.
Les AWS Deep Learning AMI (DLAMI) et les Amazon Deep Learning Containers facilitent le déploiement d'environnements de DL P4d en quelques minutes, car ils contiennent les bibliothèques et les outils nécessaires au cadre DL. Vous pouvez également ajouter vos propres bibliothèques et outils plus facilement à ces images. Les instances P4d prennent en charge les cadres ML les plus populaires, tels que TensorFlow, PyTorch et MXNet. D'autre part, les instances P4d sont prises en charge par les principaux services AWS pour le ML, la gestion et l'orchestration, tels que Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch et AWS ParallelCluster.
Fonctions
Les GPU NVIDIA A100 Tensor Core offrent une accélération sans précédent à grande échelle pour le ML et le HPC. La troisième génération des Tensor Cores de NVIDIA A100 accélère toutes les charges de travail de précision, ainsi que le temps d'accès aux informations et de mise sur le marché. Chaque GPU A100 offre des performances de calcul plus de 2,5 fois supérieures à celles de la génération GPU V100 précédente et est fournie avec 40 Go HBM2 (dans les instances P4d) ou 80 Go HBM2e (dans les instances P4de) de mémoire GPU haute performance. La plus grande quantité de mémoire GPU profite particulièrement aux charges de travail qui s'entraînent sur des jeux de données volumineux haute résolution. Les GPU NVIDIA A100 utilisent le débit d'interconnexion des GPU NVSwitch pour que chaque GPU puisse communiquer avec tous les autres GPU dans la même instance au même débit bidirectionnel de 600 Go/s et avec une latence à un seul saut.
Les instances P4d assurent une mise en réseau à 400 Gbit/s pour aider les clients à mieux monter en puissance leurs charges de travail distribuées, telles que l'entraînement multinœuds, et de manière plus efficace grâce à un débit de mise en réseau élevé entre les instances P4d ainsi qu'entre une instance P4d et des services de stockage, tels qu'Amazon Simple Storage Service (Amazon S3) et FSx pour Lustre. EFA est une interface réseau personnalisée conçue par AWS pour faciliter la mise à l'échelle des applications ML et HPC vers des milliers de GPU. Pour réduire davantage la latence, EFA est couplée à NVIDIA GPUDirect RDMA pour permettre une communication GPU à GPU à faible latence entre les serveurs avec contournement du système d'exploitation.
Les clients peuvent accéder à un stockage à haut débit et à faible latence à l'échelle du pétaoctet avec FSx pour Lustre ou à un stockage abordable pratiquement illimité avec Amazon S3, à des vitesses de 400 Gbit/s. Pour les charges de travail nécessitant un accès rapide à de grands jeux de données, chaque instance P4d comprend également 8 To de stockage SSD basé sur NVMe avec un débit de lecture de 16 Go/s.
Les instances P4d reposent sur l'AWS Nitro System, qui est un ensemble étendu de composants qui décharge de nombreuses fonctions de virtualisation traditionnelles sur du matériel et des logiciels dédiés afin d'offrir des niveaux élevés de performances, de disponibilité et de sécurité, tout en réduisant les frais de virtualisation.
Témoignages de clients
Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs commerciaux grâce aux instances Amazon EC2 P4.
Toyota Research Institute (TRI)
TRI-ANNONCE
TRI-ANNONCE
GE Healthcare
HEAVY.AI
Zenotech Ltd.
Aon
Rad AI
Informations sur le produit
|
Instance Size
|
vCPUs
|
Instance Memory (GiB)
|
GPU – A100
|
GPU memory
|
Network Bandwidth (Gbps)
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (GB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
96
|
1 152
|
8
|
320 Go
HBM2 |
400 ENA et EFA
|
Oui
|
NVSwitch 600 Go/s
|
8 disques SSD NVMe de 1 000
|
19
|
|
p4de.24xlarge
|
96
|
1 152
|
8
|
640 Go
HBM2e |
400 ENA et EFA
|
Oui
|
NVSwitch 600 Go/s
|
8 disques SSD NVMe de 1 000
|
19
|
Démarrer avec les instances P4d pour ML
Amazon SageMaker est un service entièrement géré qui permet de créer, de former et de déployer des modèles de machine learning. Lorsque ces derniers sont utilisés avec les instances P4d, les clients peuvent facilement mettre à l'échelle des dizaines, des centaines ou des milliers de GPU pour entraîner rapidement un modèle à n'importe quelle échelle sans se soucier de la mise en place de clusters et de pipelines de données.
DLAMI fournit aux praticiens du ML et aux chercheurs l'infrastructure et les outils nécessaires pour accélérer la DL dans le cloud, à n'importe quelle échelle. Les conteneurs Deep Learning sont des images Docker préinstallées avec des frameworks DL pour faciliter le déploiement rapide d'environnements ML personnalisés en vous évitant le processus complexe de création et d'optimisation de vos environnements à partir de zéro.
Démarrer avec les instances P4d pour le HPC
Les instances P4d sont une plateforme idéale pour exécuter des simulations d'ingénierie, des calculs financiers, des analyses sismiques, des modélisations moléculaires, de la génomique, du rendu et d'autres charges de travail HPC basées sur des GPU. Les applications HPC exigent souvent des performances réseau élevées, un stockage rapide, d'importantes capacités de mémoire, des capacités de calcul élevées ou tous ces éléments. Les instances P4d sont compatibles avec EFA qui permet aux applications HPC utilisant l'interface MPI (Message Passing Interface) de mettre à l'échelle des milliers de GPU. AWS Batch et AWS ParallelCluster aident les développeurs HPC à créer et mettre à l’échelle rapidement des applications HPC distribuées.