Passer au contenu principal

Amazon EC2

Instances Amazon EC2 P4

Haute performance pour l'entraînement ML et les applications HPC dans le cloud

Pourquoi choisir les instances Amazon EC2 P4 ?

Les instances Amazon Elastic Compute Cloud (Amazon EC2) P4d offrent des performances élevées pour l’entraînement du machine learning (ML) et les applications de calcul haute performance (HPC) dans le cloud. Les instances P4d sont optimisées par les GPU NVIDIA A100 Tensor Core et offrent un débit élevé de premier ordre et une mise en réseau à faible latence. Ces instances prennent en charge la mise en réseau d'instances à 400 Gbit/s. Les instances P4d permettent de réduire jusqu'à 60 % le coût d'entraînement des modèles de ML, avec une performance moyenne 2,5 fois supérieure pour les modèles de deep learning par rapport aux instances P3 et P3dn de la génération précédente.

Les instances P4d sont déployées dans des clusters appelés Amazon EC2 UltraClusters qui comprennent des capacités de calcul, de mise en réseau et de stockage hautes performances dans le cloud. Chaque UltraCluster EC2 figure parmi les supercalculateurs les plus puissants au monde, ce qui vous permet d'exécuter l'entraînement ML multinœuds et les charges de travail HPC distribuées les plus complexes. Vous pouvez facilement passer de quelques GPU NVIDIA A100 à des milliers dans les UltraClusters EC2 en fonction des besoins de vos projets en ML ou HPC.

Les chercheurs, les scientifiques des données et les développeurs peuvent utiliser les instances P4d pour entraîner des modèles ML pour des cas d'utilisation, tels que le traitement du langage naturel, la détection et la classification d'objets, et les moteurs de recommandation. Ils peuvent également les utiliser pour exécuter des applications HPC comme la découverte de médicaments, l'analyse sismique et la modélisation financière. Contrairement aux systèmes sur site, vous pouvez accéder à une capacité de calcul et de stockage pratiquement illimitée, faire évoluer votre infrastructure en fonction des besoins de votre entreprise et lancer en quelques minutes une tâche d'entraînement ML multinœuds ou une application HPC distribuée étroitement couplée, sans frais d'installation ou de maintenance.

Annonce des nouvelles instances Amazon EC2 P4d

Avantages

    Avec la dernière génération de GPU NVIDIA A100 Tensor Core, chaque instance P4d fournit en moyenne des performances de DL 2,5 fois supérieures à celles des instances P3 de la génération précédente. Les UltraClusters EC2 des instances P4d aident les développeurs, les scientifiques des données et les chercheurs à exécuter au quotidien leurs charges de travail ML et HPC les plus complexes grâce à des performances de type supercalculateur sans coûts initiaux ni engagements à long terme. La réduction du temps d'entraînement avec les instances P4d augmente la productivité, ce qui aide les développeurs à se concentrer sur leur mission principale, à savoir intégrer l'intelligence ML dans les applications métier.

    Les développeurs peuvent passer aisément à des milliers de GPU avec les UltraClusters EC2 des instances P4d. La mise en réseau à haut débit et à faible latence avec prise en charge de la mise en réseau d'instances à 400 Gbit/s, ainsi que des technologies Elastic Fabric Adapter (EFA) et GPUDirect RDMA, permettent d'accélérer l'entraînement des modèles ML à l'aide de techniques de montée en puissance/distribuées. EFA utilise la bibliothèque de communications collectives NVIDIA (NCCL) pour mettre à l'échelle des milliers de GPU. La technologie GPUDirect RDMA permet quant à elle une communication GPU à GPU à faible latence entre les instances P4d.

    Les instances P4d permettent de réduire jusqu'à 60 % le coût d'entraînement des modèles ML par rapport aux instances P3. En outre, les instances P4d sont disponibles à l'achat en tant qu'instances Spot. Les instances Spot tirent parti de la capacité d'instance EC2 inutilisée et peuvent réduire significativement vos coûts EC2 jusqu'à 90 % par rapport aux prix à la demande. Grâce à la réduction des coûts d'entraînement ML offerte par les instances P4d, les budgets peuvent être réaffectés pour intégrer davantage d'intelligence ML dans les applications métier.

    Les AWS Deep Learning AMI (DLAMI) et les Amazon Deep Learning Containers facilitent le déploiement d'environnements de DL P4d en quelques minutes, car ils contiennent les bibliothèques et les outils nécessaires au cadre DL. Vous pouvez également ajouter vos propres bibliothèques et outils plus facilement à ces images. Les instances P4d prennent en charge les cadres ML les plus populaires, tels que TensorFlow, PyTorch et MXNet. D'autre part, les instances P4d sont prises en charge par les principaux services AWS pour le ML, la gestion et l'orchestration, tels que Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch et AWS ParallelCluster.

Fonctions

    Les GPU NVIDIA A100 Tensor Core offrent une accélération sans précédent à grande échelle pour le ML et le HPC. La troisième génération des Tensor Cores de NVIDIA A100 accélère toutes les charges de travail de précision, ainsi que le temps d'accès aux informations et de mise sur le marché. Chaque GPU A100 offre des performances de calcul plus de 2,5 fois supérieures à celles de la génération GPU V100 précédente et est fournie avec 40 Go HBM2 (dans les instances P4d) ou 80 Go HBM2e (dans les instances P4de) de mémoire GPU haute performance. La plus grande quantité de mémoire GPU profite particulièrement aux charges de travail qui s'entraînent sur des jeux de données volumineux haute résolution. Les GPU NVIDIA A100 utilisent le débit d'interconnexion des GPU NVSwitch pour que chaque GPU puisse communiquer avec tous les autres GPU dans la même instance au même débit bidirectionnel de 600 Go/s et avec une latence à un seul saut.

    Les instances P4d assurent une mise en réseau à 400 Gbit/s pour aider les clients à mieux monter en puissance leurs charges de travail distribuées, telles que l'entraînement multinœuds, et de manière plus efficace grâce à un débit de mise en réseau élevé entre les instances P4d ainsi qu'entre une instance P4d et des services de stockage, tels qu'Amazon Simple Storage Service (Amazon S3) et FSx pour Lustre. EFA est une interface réseau personnalisée conçue par AWS pour faciliter la mise à l'échelle des applications ML et HPC vers des milliers de GPU. Pour réduire davantage la latence, EFA est couplée à NVIDIA GPUDirect RDMA pour permettre une communication GPU à GPU à faible latence entre les serveurs avec contournement du système d'exploitation.

    Les clients peuvent accéder à un stockage à haut débit et à faible latence à l'échelle du pétaoctet avec FSx pour Lustre ou à un stockage abordable pratiquement illimité avec Amazon S3, à des vitesses de 400 Gbit/s. Pour les charges de travail nécessitant un accès rapide à de grands jeux de données, chaque instance P4d comprend également 8 To de stockage SSD basé sur NVMe avec un débit de lecture de 16 Go/s.

    Les instances P4d reposent sur l'AWS Nitro System, qui est un ensemble étendu de composants qui décharge de nombreuses fonctions de virtualisation traditionnelles sur du matériel et des logiciels dédiés afin d'offrir des niveaux élevés de performances, de disponibilité et de sécurité, tout en réduisant les frais de virtualisation.

Témoignages de clients

Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs commerciaux grâce aux instances Amazon EC2 P4.

Toyota Research Institute (TRI)

 

Le Toyota Research Institute (TRI), fondé en 2015, s'emploie à développer la conduite automatisée, la robotique et d'autres technologies d'amplification humaine pour Toyota. 
 
« Au TRI, nous nous efforçons de construire un avenir où chacun aura la liberté de se déplacer. Les instances P3 de la génération précédente nous ont permis de réduire notre temps d'entraînement des modèles ML de plusieurs jours à quelques heures, et nous sommes impatients d'utiliser les instances P4d, car la mémoire GPU supplémentaire et les formats flottants plus efficaces permettront à notre équipe d'apprentissage automatique de s'entraîner avec des modèles plus complexes à une vitesse encore plus rapide. « 
Mike Garrison, responsable technique, ingénierie des infrastructures, TRI
Missing alt text value

TRI-ANNONCE

 

« Chez TRI-AD, nous nous efforçons de construire un avenir où chacun aura la liberté de se déplacer et d'explorer en mettant l'accent sur la réduction des blessures et des décès liés aux véhicules grâce à la conduite adaptative et à la ville intelligente. Grâce à l'utilisation des instances Amazon EC2 P4d, nous avons pu réduire notre temps d'apprentissage pour la reconnaissance d'objets de 40 % par rapport aux instances GPU de la génération précédente sans aucune modification des codes existants. « 
 
Junya Inada, directrice de la conduite automatisée (reconnaissance), TRI-AD
Missing alt text value

TRI-ANNONCE

 

« Grâce aux instances Amazon EC2 P4d, nous avons pu réduire instantanément nos coûts de formation par rapport aux instances GPU de la génération précédente, ce qui nous a permis d'augmenter le nombre d'équipes travaillant sur la formation des modèles. Les améliorations apportées à la mise en réseau de P4d nous ont permis d'évoluer efficacement vers des dizaines d'instances, ce qui nous a permis d'optimiser, de recycler et de déployer rapidement des modèles dans des voitures d'essai ou des environnements de simulation pour des tests ultérieurs. « 
 
Jack Yan, directeur principal de l'ingénierie de l'infrastructure, TRI-AD
Missing alt text value

GE Healthcare

 

GE Healthcare est un leader mondial de l'innovation en matière de technologies médicales et de solutions numériques. GE Healthcare permet aux praticiens de prendre des décisions plus rapides et éclairées grâce à des dispositifs intelligents, une analytique des données, des applications et des services, tous pris en charge par la plateforme d'intelligence Edison. 
 
« Chez GE Healthcare, nous fournissons aux cliniciens des outils qui les aident à agréger les données, à appliquer l'IA et l'analytique à ces données et à découvrir des informations qui améliorent les résultats pour les patients, améliorent l'efficacité et éliminent les erreurs. Nos appareils d'imagerie médicale génèrent des quantités massives de données qui doivent être traitées par nos scientifiques des données. Avec les précédents clusters GPU, il fallait des jours pour entraîner des modèles d'IA complexes, tels que les réseaux GAN progressifs, pour réaliser des simulations et visualiser les résultats. L'utilisation des nouvelles instances P4d a permis de réduire le temps de traitement de plusieurs jours à quelques heures. Nous avons constaté une rapidité deux à trois fois plus élevée lors de l'apprentissage de modèles avec différentes tailles d'image, tout en obtenant de meilleures performances grâce à une taille de lot accrue et une productivité accrue grâce à un cycle de développement de modèles plus rapide. « 
 
Karley Yoder, vice-présidente et directrice générale, intelligence artificielle, GM Healthcare
Missing alt text value

HEAVY.AI

 

HEAVY.AI est un pionnier de l'analytique accélérée. La plateforme HEAVY.AI est utilisée dans les entreprises et les gouvernements pour obtenir des informations sur les données au-delà des limites des outils d'analyse traditionnels.
 
« Chez HEAVY.AI, nous nous efforçons de construire un avenir dans lequel la science des données et l'analyse convergeront afin de démanteler et de fusionner les silos de données. Les clients tirent parti de leurs énormes quantités de données, qui peuvent inclure le lieu et le temps, pour se faire une idée complète non seulement de ce qui se passe, mais aussi du moment et du lieu, grâce à la visualisation détaillée des données spatio-temporelles. Notre technologie permet de voir à la fois la forêt et les arbres. Grâce aux instances P4d Amazon EC2, nous avons pu réduire considérablement le coût de déploiement de notre plateforme par rapport aux instances GPU de la génération précédente, ce qui nous a permis de mettre à l'échelle d'énormes jeux de données pour un coût abordable. Les améliorations apportées à la mise en réseau de l'A100 nous ont permis d'améliorer notre efficacité en matière d'adaptation à des milliards de lignes de données et ont permis à nos clients de glaner des informations encore plus rapidement. « 
 
Ray Falcione, vice-président du secteur public américain, HEAVY.AI
Missing alt text value

Zenotech Ltd.

 

Zenotech Ltd redéfinit l'ingénierie en ligne grâce à l'utilisation de clouds HPC offrant des modèles de licence à la demande ainsi que des avantages en termes de performances extrêmes grâce à l'utilisation des GPU. 
 
« Chez Zenotech, nous développons des outils qui permettront aux concepteurs de créer des produits plus efficaces et plus respectueux de l'environnement. Nous travaillons dans tous les secteurs d'activité et nos outils permettent de mieux comprendre la performance des produits grâce à la simulation à grande échelle. L'utilisation des instances P4d AWS nous permet d'exécuter nos simulations 3,5 fois plus rapidement qu'avec les GPU de génération précédente. Cette accélération réduit considérablement notre temps de résolution, permettant à nos clients de commercialiser leurs conceptions plus rapidement ou de réaliser des simulations plus fidèles que ce qui était possible auparavant. « 
 
Jamil Appa, directeur et cofondateur, Zenotech
Missing alt text value

Aon

 

Aon est une entreprise mondiale de services professionnels de premier plan qui propose une large gamme de solutions en matière de risques, de retraite et de santé. Aon PathWise est une solution de gestion des risques HPC basée sur les GPU et pouvant être mise à l'échelle, que les assureurs et réassureurs, les banques et les fonds de pension peuvent utiliser pour relever les principaux défis du moment, tels que les tests de stratégies de couverture, les prévisions réglementaires et économiques, et la budgétisation. 
 
« Chez PathWise Solutions Group LLC, notre produit permet aux compagnies d'assurance, aux réassureurs et aux fonds de pension d'accéder à des technologies de nouvelle génération pour résoudre rapidement les principaux défis actuels en matière d'assurance, tels que l'apprentissage automatique, les tests de stratégies de couverture, les rapports réglementaires et financiers, la planification commerciale et les prévisions économiques, ainsi que le développement et la tarification de nouveaux produits. Grâce à l'utilisation d'instances P4d Amazon EC2, nous sommes en mesure d'améliorer considérablement la vitesse des calculs en simple et double précision par rapport aux instances GPU de la génération précédente pour les calculs les plus exigeants, ce qui permet aux clients d'effectuer pour la toute première fois une nouvelle gamme de calculs et de prévisions. La rapidité est importante, et nous continuons à apporter une valeur ajoutée significative et les dernières technologies à nos clients grâce aux nouvelles instances d'AWS. « 
 
Van Beach, Global Head of Life Solutions, Aon Pathwise Strategy and Technology Group
Missing alt text value

Rad AI

 

Composée d'experts en radiologie et en IA, Rad AI développe des produits qui maximisent la productivité des radiologues, rendant ainsi les soins de santé plus largement accessibles et améliorant les résultats pour les patients.  Lisez l'étude de cas pour en savoir plus
 
« Chez Rad AI, notre mission est d'améliorer l'accès et la qualité des soins de santé pour tous. En se concentrant sur le flux de travail de l'imagerie médicale, Rad AI permet aux radiologues de gagner du temps, de réduire l'épuisement professionnel et d'améliorer la précision. Nous utilisons l'IA pour automatiser les flux de radiologie et contribuer à simplifier les comptes rendus radiologiques. Grâce aux nouvelles instances P4d EC2, nous avons constaté une inférence plus rapide et la possibilité d'entraîner des modèles 2,4 fois plus rapidement, avec une précision plus élevée que sur les instances P3 de la génération précédente. Cela permet un diagnostic plus rapide et plus précis et un meilleur accès aux services de radiologie de haute qualité fournis par nos clients à travers les États-Unis. « 
 
Doktor Gurson, cofondateur, Rad AI
Missing alt text value

Informations sur le produit

Instance Size
vCPUs
Instance Memory (GiB)
GPU – A100
GPU memory
Network Bandwidth (Gbps)
GPUDirect RDMA
GPU Peer to Peer
Instance Storage (GB)
EBS Bandwidth (Gbps)
p4d.24xlarge
96
1 152
8
320 Go
HBM2
400 ENA et EFA
Oui
NVSwitch 600 Go/s
8 disques SSD NVMe de 1 000
19
p4de.24xlarge
96
1 152
8
640 Go
HBM2e
400 ENA et EFA
Oui
NVSwitch 600 Go/s
8 disques SSD NVMe de 1 000
19

Démarrer avec les instances P4d pour ML

    Amazon SageMaker est un service entièrement géré qui permet de créer, de former et de déployer des modèles de machine learning. Lorsque ces derniers sont utilisés avec les instances P4d, les clients peuvent facilement mettre à l'échelle des dizaines, des centaines ou des milliers de GPU pour entraîner rapidement un modèle à n'importe quelle échelle sans se soucier de la mise en place de clusters et de pipelines de données.

    DLAMI fournit aux praticiens du ML et aux chercheurs l'infrastructure et les outils nécessaires pour accélérer la DL dans le cloud, à n'importe quelle échelle. Les conteneurs Deep Learning sont des images Docker préinstallées avec des frameworks DL pour faciliter le déploiement rapide d'environnements ML personnalisés en vous évitant le processus complexe de création et d'optimisation de vos environnements à partir de zéro.

Démarrer avec les instances P4d pour le HPC

Les instances P4d sont une plateforme idéale pour exécuter des simulations d'ingénierie, des calculs financiers, des analyses sismiques, des modélisations moléculaires, de la génomique, du rendu et d'autres charges de travail HPC basées sur des GPU. Les applications HPC exigent souvent des performances réseau élevées, un stockage rapide, d'importantes capacités de mémoire, des capacités de calcul élevées ou tous ces éléments. Les instances P4d sont compatibles avec EFA qui permet aux applications HPC utilisant l'interface MPI (Message Passing Interface) de mettre à l'échelle des milliers de GPU. AWS Batch et AWS ParallelCluster aident les développeurs HPC à créer et mettre à l’échelle rapidement des applications HPC distribuées.

En savoir plus