Instances Amazon EC2 P3

Accélérer l'apprentissage automatique et les applications de calcul haute performance avec des GPU puissants.

Pourquoi choisir les instances Amazon EC2 P3 ?

Les instances P3 Amazon EC2 offrent des fonctionnalités de calcul haute performance dans le cloud avec jusqu'à 8 GPU NVIDIA® V100 à cœurs Tensor et un débit réseau pouvant atteindre 100 Gb/s pour les applications d'apprentissage automatique et HPC (calcul haute performance). Ces instances offrent jusqu'à 1 pétaflop de performances de précision mixte par instance pour accélérer significativement les applications d'apprentissage automatique et de calcul haute performance. Il a été démontré que les instances P3 Amazon EC2 réduisent de jours en minutes les temps de formation pour l'apprentissage automatique, et multiplient par 3 ou 4 le nombre de simulations effectuées pour le calcul haute performance.

Avec jusqu'à 4 fois plus de bande passante réseau que les instances P3.16xlarge, les instances P3dn.24xlarge Amazon EC2 sont les tout derniers membres de la famille P3, et sont optimisées pour les applications de machine learning distribué et HPC. Ces instances offrent un débit réseau pouvant atteindre 100 Gbit/s, 96 vCPU personnalisés Intel® Xeon® Scalable (Skylake), 8 GPU NVIDIA® V100 Tensor Core dotés chacun de 32 Gio de mémoire et 1,8 To de stockage local SSD basé sur NVMe. Les instances P3dn.24xlarge sont également compatibles avec Elastic Fabric Adapter (EFA) qui accélère les applications de machine learning distribuées utilisant NVIDIA Collective Communications Library (NCCL). EFA permet la mise à l'échelle de milliers de GPU, améliorant ainsi de manière significative le débit et l'évolutivité lors des phases d'apprentissage automatique, pour des résultats plus rapides.

Présentation des instances Amazon EC2 P3

Avantages

Pour les spécialistes des données, les chercheurs et les développeurs qui doivent accélérer les applications ML, les instances P3 Amazon EC2 sont les plus rapides dans le cloud pour la formation ML. Les instances Amazon EC2 P3 comportent jusqu'à huit GPU NVIDIA Tensor Core V100 de dernière génération et délivrent jusqu'à un pétaflop de performances de précision mixte pour accélérer significativement les charges de travail ML. Une formation plus rapide sur les modèles peut permettre aux scientifiques des données et aux ingénieurs d'apprentissage automatique d'itérer plus rapidement, de former un plus grand nombre de modèles et d'accroître la précision.

Avec l'une des instances GPU les plus puissantes dans le cloud combinée à des programmes de tarification flexibles, vous bénéficiez d'une solution exceptionnellement rentable pour la formation du machine learning. Comme pour les instances Amazon EC2 en général, les instances P3 sont disponibles en tant qu'instances à la demande, instances réservées ou instances Spot. Les instances Spot tirent parti de la capacité d'instance EC2 inutilisée et peuvent réduire significativement vos coûts Amazon EC2 avec une réduction allant jusqu'à 70 % par rapport aux prix à la demande.

Contrairement aux systèmes sur site, l'exécution du calcul haute performance sur des instances P3 Amazon EC2 offre une capacité pratiquement illimitée pour faire monter en charge votre infrastructure et vous apporte la flexibilité de changer les ressources facilement et aussi souvent que votre charge de travail l'exige. Vous pouvez configurer vos ressources pour répondre aux besoins de votre application et lancer un cluster HPC en quelques minutes, en ne payant que ce que vous utilisez.

Utilisez des images Docker préempaquetées pour déployer des environnements de Deep Learning en quelques minutes seulement. Les images contiennent les bibliothèques de frameworks de Deep Learning (actuellement TensorFlow et Apache MXNet) et les outils requis. Ces images sont entièrement testées. Vous pouvez facilement ajouter vos propres bibliothèques et outils à ces images afin d'obtenir un niveau de contrôle plus élevé sur le traitement des données, la surveillance et la conformité. De plus, les instances Amazon EC2 P3 fonctionnent de manière transparente avec Amazon SageMaker pour fournir une plateforme de Machine Learning complète, puissante et intuitive. Amazon SageMaker est une plateforme de Machine Learning entièrement gérée qui vous permet de construire, former et déployer rapidement et facilement des modèles de Machine Learning. De plus, les instances P3 Amazon EC2 peuvent être intégrées à des Amazon Machine Images (AMI) de deep learning AWS qui sont pré-installées avec des infrastructures de deep learning fréquemment utilisées. Vous pouvez ainsi démarrer plus rapidement et plus facilement avec la formation du machine learning et l'inférence.

Témoignages de clients

Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs métier grâce aux instances Amazon EC2 P3.

  • Airbnb

    AirBnB utilise le machine learning pour optimiser les recommandations de recherche et améliorer les directives de tarification dynamique pour les hôtes, ce qui se traduit par une augmentation des conversions de réservation. Grâce aux instances P3 Amazon EC2, Airbnb peut exécuter des charges de travail de formation plus rapidement, effectuer davantage d'itérations, créer de meilleurs modèles de machine learning et réduire les coûts.

  • Celgene

    Celgene est une entreprise mondiale de biotechnologie qui développe des thérapies ciblées qui correspondent au traitement du patient. La société exécute ses charges de travail HPC pour le séquençage génomique de nouvelle génération et les simulations chimiques sur les instances P3 Amazon EC2. Grâce à cette puissance de calcul, Celgene peut former des modèles de deep learning pour distinguer les cellules malignes des cellules bénignes. Avant d'utiliser des instances P3, deux mois était nécessaires pour exécuter des tâches de calcul à grande échelle. Maintenant cela ne prend que quatre heures. La technologie AWS a permis à Celgene d'accélérer le développement de thérapies médicamenteuses contre le cancer et les maladies inflammatoires.

  • Hyperconnect

     

    Hyperconnect est spécialisée dans l'application de nouvelles technologies basées sur le machine learning au traitement d'images et de vidéos, et a été la première société à développer l'interface webRTC pour les plateformes mobiles.

    Lire toute l’étude de cas

    Hyperconnect utilise la classification d’images basée sur l’IA sur son application de communication vidéo afin de reconnaître l’environnement actuel dans lequel un utilisateur se trouve. Nous avons réduit le temps d'entraînement de notre modèle de ML, qui était de plus d'une semaine, à un jour en faisant migrer les stations de travail sur site vers plusieurs instances Amazon EC2 P3 à l'aide de Horovod. En utilisant PyTorch comme cadre de machine learning, nous avons rapidement développé des modèles et exploité les bibliothèques disponibles dans la communauté open source.

    Sungjoo Ha, Directeur du Lab d'IA, Hyperconnect
  • NerdWallet

    NerdWallet est une startup de finances personnelles qui fournit des outils et des conseils pour permettre à ses clients de facilement rembourser des dettes, de choisir les meilleurs produits et services financiers et de relever certains des défis majeurs de la vie, comme l'achat d'une maison ou les plans d'épargne retraite. La société se repose énormément sur la science des données et le machine learning (ML) pour connecter les clients avec des produits financiers personnalisés.

    Lire toute l'étude de cas

    L'utilisation des instances Amazon SageMaker et Amazon EC2 P3 avec les GPU NVIDIA V100 Tensor Core a également amélioré la flexibilité et les performances de NerdWallet et accélérer l’entraînement des modèles ML par les scientifiques des données. Auparavant, il nous fallait des mois pour lancer et itérer des modèles : aujourd’hui, cela ne prend que quelques jours.

    Ryan Kirkman, directeur adjoint de l'ingénierie - NerdWallet
  • PathWise Solutions Group

    Leader dans les solutions de systèmes de qualité, PathWise d’Aon est une suite d'applications SaaS cloud conçue pour la modélisation de gestion des risques en entreprise qui offre rapidité, fiabilité, sécurité et un service à la demande à un éventail de clients.

    Lire l'étude de cas

    Aon’s PathWise Solutions Group fournit une solution de gestion du risque qui permet à nos clients de tirer parti des dernières technologies afin de rapidement résoudre les défis clés actuels des assurances, tels que la gestion et le test de stratégies de couverture, les prévisions économiques et réglementaires, ou encore les budgets. PathWise fonctionne sur AWS en production depuis 2011 et utilise maintenant des instances Amazon EC2 P-Series pour accélérer les calculs nécessaires pour résoudre ces défis pour nos clients dans le monde entier présents sur un marché qui avance et évolue.

    Van Beach, Global Head of Life Solutions, Aon Pathwise Strategy and Technology Group
  • Pinterest

    Pinterest utilise une formation de précision mixte dans les instances P3 sur AWS pour accélérer la formation des modèles de deep learning, et utilise également ces instances pour accélérer l'inférence de ces modèles, pour permettre une expérience de découverte rapide et unique pour les utilisateurs. Pinterest utilise PinSage, créé en utilisant PyTorch sur AWS. Ce modèle d'IA regroupe des images en fonction de certains thèmes. Avec 3 milliards d'images sur la plate-forme, 18 milliards d'associations différentes relient les images. Ces associations aident Pinterest à contextualiser des thèmes et des styles et à produire des expériences utilisateur plus personnalisées.

  • Salesforce

     

    Salesforce utilise le machine learning pour optimiser Einstein Vision, ce qui permet aux développeurs d'exploiter la puissance de la reconnaissance d'images pour des cas d'utilisation tels que la recherche visuelle, la détection de marque et l'identification de produit. Les instances Amazon EC2 P3 permettent aux développeurs de former des modèles d'apprentissage profond beaucoup plus rapidement afin qu'ils puissent atteindre rapidement leurs objectifs d'apprentissage automatique.

  • Schrodinger

    Schrodinger utilise le calcul haute performance (HPC) pour développer des modèles prédictifs afin d'étendre l'échelle de découverte et d'optimisation et de donner à ses clients la possibilité de commercialiser plus rapidement les médicaments qui sauvent des vies. Les instances P3 Amazon EC2 permettent à Schrodinger d'effectuer quatre fois plus de simulations par jour qu'avec les instances P2.  

  • Subtle Medical

    Subtle Medical est une société de technologies de soins de la santé qui améliore l'efficacité de l'imagerie médicale et l'expérience client, grâce à des solutions de deep learning innovantes. Son équipe est composée de scientifiques connus en imagerie, de radiologues et d'experts en IA provenant de Stanford, MIT, MD Anderson, etc.

    Lire toute l’étude de cas

    Les hôpitaux et les centres d’imagerie veulent adopter cette solution sans surcharger leurs départements IT afin d’acquérir une expérience en GPU, et créer et maintenir des centres de données ou des mini-clouds onéreux. Ils souhaitent réussir leurs déploiements de la manière la plus simple et avec le moins d’investissement possible... AWS permet d’y parvenir.

    Enhao Gong, Fondateur et PDG, Subtle Medical
  • Western Digital

    Western Digital utilise le calcul haute performance (HPC) pour exécuter des dizaines de milliers de simulations pour les sciences des matériaux, les flux de chaleur, le magnétisme et le transfert de données afin d'améliorer les performances et la qualité des solutions de stockage et des disques durs. D'après les premiers tests, les instances P3 permettent aux équipes d'ingénierie d'exécuter des simulations au moins trois fois plus rapidement que les solutions précédemment déployées.  

Instances Amazon EC2 P3 et Amazon SageMaker

Amazon SageMaker permet de développer facilement des modèles d'apprentissage automatique et de les préparer pour la formation. Ce service fournit tout ce dont vous avez besoin pour vous connecter rapidement à vos données de formation, et pour sélectionner et optimiser les meilleurs algorithme et infrastructure pour votre application. Amazon SageMaker inclut des notebooks Jupyter hébergés qui simplifient l'exploration et la visualisation de vos données de formation stockées dans Amazon S3.  Vous pouvez également utiliser l'instance de notebook pour écrire du code pour créer des tâches de formation de modèles, déployer des modèles sur l'hébergement Amazon SageMaker et tester ou valider vos modèles.

Vous pouvez commencer la formation de votre modèle d'un simple clic dans la console ou avec un appel d'API. Amazon SageMaker intègre les dernières versions de TensorFlow et d'Apache MXNet, et la prise en charge de bibliothèques CUDA9 pour des performances optimales avec les GPU NVIDIA. De plus, l'optimisation des hyper-paramètres peut automatiquement adapter votre modèle en ajustant intelligemment différentes combinaisons de paramètres du modèle pour arriver rapidement aux prédictions les plus précises. Pour les besoins à plus grande échelle, vous pouvez mettre à l'échelle des dizaines d'instances pour accélérer la construction de modèles.

Après la formation, vous pouvez déployer votre modèle en un seul clic sur des instances Amazon EC2 à scalabilité automatique dans plusieurs zones de disponibilité. En production, Amazon SageMaker gère l'infrastructure de calcul automatiquement pour effectuer des vérifications d'état, appliquer des correctifs de sécurité et réaliser d'autres opérations de maintenance de routine, le tout avec la surveillance et la journalisation d'Amazon CloudWatch intégrées.