Instances P4 Amazon EC2
Performances les plus élevées pour l'entraînement ML et les applications HPC dans le cloud
Les instances P4d Amazon EC2 offrent des performances parmi les plus élevées pour l'entraînement ML (machine learning) et les applications de calcul haute performance (HPC) dans le cloud. Les instances P4d sont optimisées par les derniers GPU NVIDIA A100 Tensor Core et offrent un débit élevé et une faible latence. Ces instances sont les premières du cloud à être compatibles avec un réseau d'instances de 400 Gbit/s. Les instances P4d permettent de réduire jusqu'à 60 % le coût d'entraînement des modèles de ML, avec une performance moyenne 2,5 fois supérieure pour les modèles de deep learning par rapport aux instances P3 et P3dn de la génération précédente.
Les instances P4d Amazon EC2 sont déployées dans des clusters hyperscale appelés UltraClusters EC2, qui sont constitués des ordinateurs, des réseaux et du stockage comptant parmi les plus performants du cloud. Chaque UltraCluster EC2 figure parmi les supercalculateurs les plus puissants au monde, permettant aux clients d'exécuter leur entraînement ML multi-nœuds et leurs applications HPC distribuées les plus complexes. Les clients peuvent facilement passer de quelques GPU NVIDIA A100 à des milliers dans les UltraClusters EC2 en fonction des besoins de leurs projets ML ou HPC.
Les chercheurs, les scientifiques des données et les développeurs peuvent exploiter les instances P4d pour entraîner des modèles ML pour des cas d'utilisation, tels que le traitement du langage naturel, la détection et la classification d'objets, et les moteurs de recommandation, ainsi que pour exécuter des applications HPC comme la découverte de médicaments, l'analyse sismique et la modélisation financière. Contrairement aux systèmes sur site, les clients peuvent accéder à une capacité de calcul et de stockage pratiquement illimitée, faire évoluer leur infrastructure en fonction des besoins de leur entreprise et lancer en quelques minutes une tâche d'entraînement ML multi-nœuds ou une application HPC distribuée étroitement couplée, sans frais d'installation ou de maintenance.
Vous avez des questions ou avez besoin d'aide concernant les clusters EC2 UltraClusters ?
Entraînement ML et HPC à grande échelle avec les clusters EC2 P4d UltraClusters
Les UltraClusters EC2 des instances P4d combinent calcul, réseau et stockage de haute performance dans l'un des supercalculateurs les plus puissants au monde. Chaque UltraCluster EC2 des instances P4d comprend plus de 4 000 des derniers GPU NVIDIA A100, une infrastructure réseau non bloquante à l'échelle du pétabit et un stockage à haut débit et à faible latence avec FSx for Lustre. Les développeurs, chercheurs ou scientifiques des données ML peuvent faire tourner des instances P4d dans des UltraClusters EC2 pour avoir accès à des performances de classe supercalculateur avec un modèle d'utilisation à la carte pour exécuter leurs applications d'entraînement ML et HPC multi-nœuds les plus complexes.
Si vous avez des questions ou besoin d'une assistance concernant les EC2 UltraClusters, cliquez ici pour demander de l'aide.

Disponible dans certaines régions uniquement. Pour connaître les régions concernées et obtenir des informations supplémentaires sur les EC2 UltraClusters, contactez-nous.
Avantages
Réduction du temps d'entraînement ML de quelques jours à quelques minutes
Avec la dernière génération de GPU NVIDIA A100 Tensor Core, chaque instance P4d Amazon EC2 fournit en moyenne des performances de deep learning 2,5 fois supérieures à celles des instances P3 de la génération précédente. Les UltraClusters EC2 des instances P4d permettent aux développeurs, aux scientifiques des données et aux chercheurs d'exécuter au quotidien leurs applications ML et HPC les plus complexes grâce à des performances de type supercalculateur sans coûts initiaux ni engagements à long terme. La réduction du temps d'entraînement avec les instances P4d augmente la productivité, permettant ainsi aux développeurs de se concentrer sur leur mission principale, à savoir intégrer l'intelligence ML dans les applications commerciales.
Exécutez les entraînements ML multi-nœuds les plus complexes avec une grande efficacité
Les développeurs peuvent passer de manière transparente à des milliers de GPU avec les UltraClusters EC2 des instances P4d. La mise en réseau à haut débit et à faible latence avec prise en charge de la mise en réseau d'instances à 400 Gbit/s, ainsi que des technologies Elastic Fabric Adapter (EFA) et GPUDirect RDMA, accélère l'entraînement des modèles ML à l'aide de techniques adaptatives/distribuées. Elastic Fabric Adapter (EFA) utilise la bibliothèque NCCL NVIDIA pour prendre en charge des milliers de GPU. La technologie GPUDirect RDMA permet quant à elle une communication GPU à GPU à faible latence entre les instances P4d.
Réduire les coûts d'infrastructure pour l'entraînement ML et le HPC
Les instances P4d Amazon EC2 permettent de réduire jusqu'à 60 % le coût d'entraînement des modèles de ML par rapport aux instances P3. En outre, les instances P4d sont disponibles à l'achat en tant qu'instances Spot. Les instances Spot tirent parti de la capacité d'instance EC2 inutilisée et peuvent réduire significativement vos coûts Amazon EC2 jusqu'à 90 % par rapport aux prix à la demande. Grâce à la réduction des coûts d'entraînement ML que permettent les instances P4d, les budgets peuvent être réaffectés pour intégrer davantage d'intelligence ML dans les applications commerciales.
Démarrer et évoluer facilement avec les services AWS
Les AMI de Deep Learning et les Deep Learning Containers permettent de déployer des environnements de deep learning P4d en quelques minutes, car ils contiennent les bibliothèques et les outils nécessaires à un tel cadre. Vous pouvez également ajouter facilement vos propres bibliothèques et outils à ces images. Les instances P4d prennent en charge les cadres ML les plus populaires, tels que TensorFlow, PyTorch et MXNet. D'autre part, les instances P4d Amazon EC2 sont prises en charge par les principaux services AWS pour le ML, la gestion et l'orchestration, tels que Amazon SageMaker, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), AWS Batch et AWS ParallelCluster.
Fonctionnalités
Basé sur la technologie des GPU NVIDIA A100 Tensor Core
Les GPU NVIDIA A100 Tensor Core offrent une accélération sans précédent à l'échelle pour le ML et le calcul haute performance (HPC). La troisième génération des Tensor Cores de NVIDIA A100 accélère toutes les charges de travail de précision, ainsi que le temps d'accès aux informations et de mise sur le marché. Chaque GPU A100 offre des performances de calcul plus de 2,5 fois supérieures à celles de la génération GPU V100 précédente et est fournie avec 40 Go HBM2 (dans les instances P4d) ou 80 Go HBM2e (dans les instances P4de) de mémoire GPU haute performance. La plus grande quantité de mémoire GPU profite particulièrement aux charges de travail qui s'entraînent sur de jeux de données haute résolution. Les GPU NVIDIA A100 tirent parti du débit d'interconnexion des GPU NVSwitch pour que chaque GPU puisse communiquer avec tous les autres GPU dans la même instance au même débit bidirectionnel de 600 Go/s et avec une latence à un seul saut.
Réseaux hautes performances
Les instances P4d assurent un débit réseau de 400 Gbit/s pour aider les clients à mieux dimensionner leurs applications distribuées, telles que l'entraînement multi-nœuds, et de manière plus efficace grâce à un débit réseau élevé entre les instances P4d ainsi qu'entre une instance P4d et des services de stockage, tels qu'Amazon S3 et FSx for Lustre. Elastic Fabric Adapter (EFA) est une interface réseau personnalisée conçue par AWS pour faciliter la mise à l'échelle des applications ML et HPC vers des milliers de GPU. Pour réduire davantage la latence, EFA est couplée à NVIDIA GPUDirect RDMA pour permettre une communication GPU à GPU à faible latence entre les serveurs avec contournement du système d'exploitation.
Stockage à haut débit et faible latence
Les clients peuvent accéder à un stockage à haut débit et à faible latence à l'échelle du pétaoctet avec FSx for Lustre ou à un stockage abordable pratiquement illimité avec Amazon S3, à des vitesses de 400 Gbit/s. Pour les applications qui ont besoin d'un accès rapide à de grands jeux de données, chaque instance P4d comprend également 8 To de stockage SSD basé sur NVMe avec un débit de lecture de 16 gigaoctets/seconde.
Basé sur le système AWS Nitro
Les instances P4d reposent sur le système AWS Nitro, qui est un ensemble étendu de composants qui décharge de nombreuses fonctions de virtualisation traditionnelles sur du matériel et des logiciels dédiés afin d'offrir des niveaux élevés de performances, de disponibilité et de sécurité, tout en réduisant les frais de virtualisation.
Témoignages de clients

Le Toyota Research Institute (TRI), fondé en 2015, s'emploie à développer la conduite automatisée, la robotique et d'autres technologies d'amplification humaine pour Toyota.
« Chez TRI, nous travaillons à construire un avenir où chacun a la liberté de se déplacer », a déclaré Mike Garrison, responsable technique de l'ingénierie des infrastructures chez TRI. « Les instances P3 de la génération précédente nous ont aidés à réduire le temps d'entraînement des modèles de machine learning de plusieurs jours à quelques heures. Nous sommes aujourd'hui impatients d'utiliser les instances P4d, car la mémoire GPU supplémentaire et les formats flottants plus efficaces permettront à notre équipe de machine learning d'assurer encore plus rapidement l'entraînement avec des modèles plus complexes. »

« Chez TRI-AD, nous travaillons à la construction d'un avenir où chacun a la liberté de se déplacer et d'explorer le monde en mettant l'accent sur la réduction des blessures et des décès liés aux véhicules grâce à la conduite adaptative et à la ville intelligente. Grâce aux instances P4d Amazon EC2, nous avons pu réduire le temps d'entraînement pour la reconnaissance d'objets de 40 % par rapport aux instances GPU de la génération précédente, sans aucune modification des codes existants », a déclaré Junya Inada, responsable de la conduite automatisée (reconnaissance) chez TRI-AD.
Jack Yan, directeur principal de l'ingénierie de l'infrastructure chez TRI-AD, précise : « Grâce à l'utilisation des instances P4d Amazon EC2, nous avons pu réduire instantanément notre coût d'entraînement par rapport aux instances GPU de la génération précédente, ce qui nous a permis d'augmenter le nombre d'équipes travaillant sur l'entraînement des modèles. Les améliorations réseau dans les instances P4d nous ont permis de passer efficacement à des dizaines d'instances, ce qui nous a donné une grande agilité pour optimiser, réentraîner et déployer rapidement les modèles dans des voitures d'essai ou des environnements de simulation pour des tests supplémentaires. »

GE Healthcare est un leader mondial de l'innovation en matière de technologies médicales et de solutions numériques. GE Healthcare permet aux praticiens de prendre des décisions plus rapides et éclairées grâce à des dispositifs intelligents, une analytique des données, des applications et des services, tous pris en charge par la plateforme d'intelligence Edison.
« Chez GE Healthcare, nous fournissons aux praticiens des outils qui les aident à consolider leurs données, à leur appliquer des fonctions d'IA et d'analyse, et à découvrir des informations qui améliorent les résultats pour les patients, stimulent l'efficacité et éliminent les erreurs », a déclaré Karley Yoder, VP et GM, Intelligence artificielle. « Nos appareils d'imagerie médicale génèrent des quantités massives de données qui doivent être traitées par nos scientifiques des données. Avec les précédents clusters GPU, il fallait des jours pour entraîner des modèles d'IA complexes, tels que les réseaux GAN progressifs, pour des simulations et pour visualiser les résultats. L'utilisation des nouvelles instances P4d a permis de réduire le temps de traitement de plusieurs jours à quelques heures. Nous avons constaté un entraînement deux à trois fois plus rapide des modèles avec des images de différentes tailles, ainsi que de meilleures performances malgré l'augmentation de la taille des lots et une meilleure productivité avec un cycle de développement de modèles plus rapide. »
.1423e4372be1d9da0d8bc14e12566a8c5f996091.png)
HEAVY.AI est un pionnier de l'analytique accélérée. La plateforme HEAVY.AI est utilisée dans les entreprises et les administrations pour identifier des informations dans les données au-delà des limites des outils analytiques traditionnels.
« Chez HEAVY.AI, nous travaillons à construire un avenir où la science des données et l'analytique convergent pour briser et fusionner les silos de données. Les clients tirent parti de leurs énormes quantités de données, qui peuvent inclure le lieu et le temps, pour se faire une idée complète non seulement de ce qui se passe, mais aussi du moment et du lieu, grâce à la visualisation détaillée des données spatio-temporelles. Notre technologie permet de voir à la fois la forêt et les arbres », a déclaré (Ray Falcione), vice-président du secteur public américain chez HEAVY.AI. « Grâce aux instances P4d Amazon EC2, nous avons pu réduire considérablement le coût de déploiement de notre plateforme par rapport aux instances GPU de la génération précédente, ce qui nous a permis de mettre à l'échelle des jeux de données massifs pour un coût abordable. Les améliorations réseau sur l'A100 ont augmenté nos capacités à évoluer pour traiter des milliards de lignes de données et ont permis à nos clients d'obtenir des informations encore plus rapidement. »

Zenotech Ltd redéfinit l'ingénierie en ligne grâce à l'utilisation de clouds HPC offrant des modèles de licence à la demande ainsi que des avantages en termes de performances extrêmes grâce à l'utilisation des GPU.
« Chez Zenotech, nous développons les outils qui permettront aux concepteurs de créer des produits plus efficaces et plus respectueux de l'environnement. Nous travaillons dans tous les secteurs d'activité et nos outils permettent de mieux comprendre la performance des produits grâce à la simulation à grande échelle », a déclaré Jamil Appa, directeur de Zenotech. « L'utilisation des instances P4d AWS nous permet d'exécuter nos simulations 3,5 fois plus rapidement qu'avec les GPU de génération précédente. Cette accélération réduit considérablement nos délais de résolution, ce qui permet à nos clients de commercialiser plus rapidement leurs conceptions ou de réaliser des simulations d'une fidélité encore inégalée ».

Aon est une entreprise mondiale de services professionnels de premier plan qui propose une large gamme de solutions en matière de risques, de retraite et de santé. Aon PathWise est une solution de gestion des risques HPC basée sur les GPU et évolutive, que les assureurs et réassureurs, les banques et les fonds de pension peuvent utiliser pour relever les principaux défis du moment, tels que les tests de stratégies de couverture, les prévisions réglementaires et économiques, et la budgétisation.
« Chez PathWise Solutions Group LLC, notre produit permet aux compagnies d'assurance, aux réassureurs et aux fonds de pension d'accéder à une technologie de nouvelle génération pour résoudre rapidement les principaux défis actuels de l'assurance, tels que le machine learning, les tests de stratégies de couverture, les rapports réglementaires et financiers, la planification des activités et les prévisions économiques, ainsi que le développement et la tarification des nouveaux produits », a déclaré Peter Phillips, PDG de PathWise Solutions Group. « Grâce à l'utilisation d'instances P4d Amazon EC2, nous sommes en mesure d'améliorer considérablement la vitesse des calculs en simple et double précision par rapport aux instances GPU de la génération précédente pour les calculs les plus exigeants, ce qui permet aux clients d'effectuer pour la toute première fois de nouveaux calculs et de nouvelles prévisions. La rapidité est primordiale », déclare M. Phillips. « Nous continuons d'ailleurs à offrir une valeur ajoutée significative et les dernières technologies à nos clients grâce aux nouvelles instances d'AWS. »

Composée d'experts en radiologie et en IA, Rad AI fabrique des produits qui maximisent la productivité des radiologues, ce qui a pour effet de rendre les soins de santé plus largement accessibles et d'améliorer les résultats pour les patients.
« Chez Rad AI, notre mission est d'améliorer l'accès aux soins de santé et leur qualité, pour tous. En se concentrant sur le flux de travail de l'imagerie médicale, Rad AI permet aux radiologues de gagner du temps, de réduire l'épuisement professionnel et d'améliorer la précision », indique Doktor Gurson, cofondateur de Rad AI. « Nous utilisons l'IA pour automatiser les flux de radiologie et contribuer à simplifier les comptes rendus radiologiques. Avec les nouvelles instances P4d EC2, nous avons constaté une inférence plus rapide et la possibilité d'entraîner des modèles 2,4 fois plus rapidement, avec une précision plus élevée que sur les instances P3 de la génération précédente. Cela permet un diagnostic plus rapide et plus précis, ainsi qu'un meilleur accès aux services de radiologie de haute qualité fournis par nos clients à travers les États-Unis. »
Informations sur le produit
Taille d'instance | Processeurs virtuels | Mémoire des instances (Gio) | GPU – A100 | Mémoire de GPU | Bande passante du réseau (Gbit/s) | GPUDirect RDMA | Pair à pair GPU | Stockage d'instance (Go) | Bande passante EBS (Gbit/s) | Prix/heure pour les instances à la demande | Tarif horaire effectif des instances réservées sur 1 an* | Tarif horaire effectif des instances réservées sur 3 ans* |
---|---|---|---|---|---|---|---|---|---|---|---|---|
p4d.24xlarge | 96 | 1 152 | 8 | 320 Go HBM2 |
400 ENA et EFA | Oui | NVSwitch 600 Go/s | 8 disques SSD NVMe de 1 000 | 19 | 32,77 USD | 19,22 USD | 11,57 USD |
p4de.24xlarge (version de prévisualisation) | 96 | 1 152 | 8 | 640 Go HBM2e |
400 ENA et EFA | Oui | NVSwitch 600 Go/s | 8 disques SSD NVMe de 1 000 | 19 | 40,96 USD | 24,01 USD | 14,46 USD |
Les instances P4d Amazon EC2 sont disponibles dans les régions AWS USA Est (Virginie du Nord et Ohio), USA Ouest (Oregon), Europe (Irlande et Francfort), Asie-Pacifique (Tokyo et Séoul) et les instance P4de Amazon EC2 sont disponibles dans les régions AWS USA Est (Virginie du Nord), USA Ouest (Oregon).
Les clients peuvent acheter des instances P4d et P4de sous forme d'instances à la demande, d'instances réservées, d'instances Spot, d'hôtes dédiés ou avec une offre Savings Plan.
Démarrer avec les instances P4d Amazon EC2 pour le machine learning
Utilisation d'Amazon SageMaker
Utilisation des AWS Deep Learning AMI et des Deep Learning Containers
Utilisation d'Amazon Elastic Kubernetes Service (EKS) ou d'Elastic Container Service (ECS)
Démarrer avec les instances P4d Amazon EC2 pour le calcul haute performance
Les instances P4d Amazon EC2 sont une plateforme idéale pour exécuter des simulations d'ingénierie, des calculs financiers, des analyses sismiques, des modélisations moléculaires, de la génomique, du rendu et d'autres applications GPU de calcul haute performance. Les applications HPC exigent souvent des performances réseau élevées, un stockage rapide, d'importantes capacités de mémoire, des capacités de calcul élevées ou tous ces éléments. Les instances P4d sont compatibles avec Elastic Fabric Adapter (EFA) qui permet aux applications de calcul haute performance utilisant l'interface MPI (Message Passing Interface) de mettre à l'échelle des milliers de GPU. AWS Batch et AWS ParallelCluster permettent aux développeurs HPC de créer et de mettre à l'échelle rapidement des applications HPC distribuées.
Articles de blog et autres articles
Ressources supplémentaires
Démarrer avec AWS

Commencez à créer sur la console.
Lancez votre projet AWS en vous appuyant sur les guides étape par étape.