Infrastructure AWS Machine Learning

Infrastructure haute performance, économique et évolutive pour tout type de charge de travail

Il y a plus de machine learning exécuté sur AWS que partout ailleurs

De plus en plus de clients, représentant un large éventail de secteurs d'activité, préfèrent AWS aux autres cloud pour créer, entraîner et déployer leurs applications de machine learning (ML). AWS propose le plus large choix d'options de calcul puissant, de réseau à haut débit et de stockage haute performance évolutif pour tout projet ou application de ML.

Chaque projet de ML est unique et, grâce à AWS, vous pouvez personnaliser votre infrastructure en fonction de vos besoins en termes de performances et de budget. Qu'il s'agisse d'utiliser le cadre de ML qui convient le mieux à votre équipe ou de sélectionner la plateforme matérielle adéquate pour héberger vos modèles de ML, AWS offre un large éventail de services pour répondre à vos attentes.

Les entreprises ont trouvé de nouvelles façons d'exploiter le ML pour les moteurs de recommandation, la détection d'objets, les assistants vocaux, la détection des fraudes, etc. Bien que l'utilisation du ML gagne du terrain, l'entraînement et le déploiement des modèles de ML restent coûteux, le temps de développement des modèles est souvent long et l'acquisition d'une infrastructure adaptée à l'évolution des conditions métier peut s'avérer difficile. Les services d'infrastructure AWS ML suppriment les obstacles à l'adoption du ML en raison de leur haute performance, de leur rentabilité et de leur grande flexibilité.

Infrastructure AWS ML : hautes performances, rentabilité et grande flexibilité (3:20)

Choisissez parmi un large éventail de services de machine learning

Le graphique ci-dessous illustre la profondeur et l'ampleur des services offerts par AWS. Les services de flux de travail, présentés dans la couche supérieure, facilitent la gestion et la mise à l'échelle de votre infrastructure ML sous-jacente. La couche suivante fait ressortir que l'infrastructure ML d'AWS prend en charge tous les principaux cadres de ML. La couche inférieure présente des exemples de services de calcul, mise en réseau et stockage qui constituent les fondements de l'infrastructure ML.

Choisissez parmi un large éventail de services de machine learning

Services d'infrastructure de machine learning

Le développement traditionnel du ML est un processus complexe, coûteux et itératif. Tout d'abord, vous devez préparer des données d'exemple pour entraîner un modèle. Ensuite, les développeurs doivent choisir l'algorithme ou le cadre qu'ils utiliseront pour créer le modèle. Ils doivent alors entraîner le modèle à faire des prédictions et l'ajuster pour qu'il fournisse les meilleures prédictions possibles. Et pour finir, ils doivent intégrer le modèle à leur application et déployer cette dernière sur une infrastructure évolutive.

  • Préparer
  • Les scientifiques des données consacrent souvent beaucoup de temps à l'exploration et au prétraitement, ou « wrangling », des données d'exemple avant de les utiliser pour entraîner le modèle. Pour prétraiter des données, il est généralement nécessaire de les récupérer dans un référentiel, de les nettoyer en les filtrant et en les modifiant pour en faciliter l'exploration, de les préparer ou de les transformer en ensembles de données significatifs en éliminant les parties inutiles ou superflues, et d'étiqueter les données.

    Défi Solution AWS Comment
    Étiquetage manuel des données Amazon Mechanical Turk Fournit une main-d'œuvre humaine à la demande et modulable pour accomplir des tâches.
    Étiquetage manuel des données Amazon SageMaker Ground Truth Automatise l'étiquetage en entraînant Ground Truth à partir de données étiquetées par des humains afin que le service apprenne à étiqueter les données de manière indépendante.
    Gérer et mettre à l'échelle le traitement des données Amazon SageMaker Processing Étendez une expérience entièrement gérée aux charges de travail de traitement des données. Connectez-vous à des sources de données de stockage ou de système de fichiers existantes, lancez les ressources nécessaires à l'exécution de votre tâche, enregistrez les résultats sur un stockage permanent et examinez les journaux et les métriques.
    Gestion de volumes de données importants nécessaires à l'entraînement de modèles Amazon EMR Traite de manière rapide et rentable des volumes de données considérables à grande échelle.
    Stockage en fichiers partagés de volumes de données importants nécessaires à l'entraînement de modèles
    Amazon S3 Offre une disponibilité mondiale en matière de stockage longue durée de données dans un format d'accès de type « get/put » aisément consultable.
  • Création
  • Une fois que vous disposez de données d'entraînement, vous devez choisir un algorithme de machine learning dont le style d'apprentissage répond à vos besoins. Ces algorithmes peuvent être classés en trois grandes catégories : apprentissage supervisé, apprentissage non supervisé ou apprentissage par renforcement. Pour vous aider dans le développement de votre modèle, différents cadres de machine learning tels que TensorFlow, Pytorch, et MXNet sont disponibles avec des bibliothèques et des outils qui facilitent le développement.

    Défi Solution AWS Comment
    Accès aux blocs-notes Jupyter Blocs-notes Jupyter hébergés Blocs-notes Jupyter hébergés fonctionnant sur une instance EC2 de votre choix.
    Partage et collaboration dans les blocs-notes Jupyter Blocs-notes Amazon SageMaker Des blocs-notes Jupyter entièrement gérés, sur lesquels vous pouvez commencer à travailler en quelques secondes et que vous pouvez partager d'un simple clic. Les dépendances de code sont capturées automatiquement. Vous pouvez donc facilement travailler en collaboration avec d'autres personnes. Les pairs auront exactement le même bloc-notes, sauvegardé au même endroit.
    Création d'un algorithme Algorithmes pré-intégrés d'Amazon SageMaker Des algorithmes de machine learning performants et évolutifs, optimisés pour la vitesse et la précision, qui peuvent être entraînés sur des ensembles de données de l'ordre du pétaoctet.
    Optimisation du cadre de deep learning Amazon SageMaker Les cadres majeurs sont automatiquement configurés et optimisés pour des performances élevées. Il n'est pas nécessaire de configurer manuellement les cadres et vous pouvez les utiliser dans les conteneurs intégrés.
    Commencer à utiliser plusieurs cadres de ML AMI Deep Learning AWS Permet aux utilisateurs de lancer rapidement des instances Amazon EC2 préinstallées avec des interfaces et des cadres de deep learning populaires tels que TensorFlow, PyTorch et Apache MXNet.
    Démarrer avec les conteneurs en utilisant plusieurs cadres de ML   Conteneurs Deep Learning AWS Images Docker préinstallées avec des cadres de deep learning pour faciliter le déploiement rapide d'environnements de machine learning personnalisés.
  • Entraîner
  • Après avoir créé votre modèle, vous avez besoin de ressources de calcul, de mise en réseau et de stockage pour entraîner votre modèle. La formation accélérée des modèles peut permettre aux spécialistes des données et aux ingénieurs en machine learning d'itérer plus rapidement, de former un plus grand nombre de modèles et d'accroître la précision. Après avoir entraîné votre modèle, il convient de l'évaluer pour déterminer si la précision des déductions est acceptable.

    Instances

    Défi
    Solution AWS            Comment
    Entraînement à grande échelle, sensible au temps et aux coûts Instances EC2 Trn1 optimisées par AWS Trainium

    Les instances Amazon EC2 Trn1, optimisées par les puces AWS Trainium, sont spécialement conçues pour le deep learning haute performance et offrent les meilleures prestations en termes de prix pour entraîner des modèles de deep learning dans le cloud.

    Entraînement sensible aux coûts Instances EC2 DL1 optimisées par Habana Gaudi

    Les instances Amazon EC2 DL1, optimisées par les accélérateurs Gaudi de Habana Labs, une société Intel, sont conçues pour entraîner des modèles de deep learning. Elles utilisent jusqu'à 8 accélérateurs Gaudi et offrent des performances jusqu'à 40 % supérieures à celles des instances EC2 actuelles basées sur les GPU pour entraîner des modèles de deep learning.

    Entraînement à grande échelle sensible au temps Instances Amazon EC2 P4 Les instances P4d offrent les meilleures performances en matière d'apprentissage machine dans le cloud avec 8 GPU NVIDIA A100 Tensor Core, une mise en réseau des instances à 400 Gbps et la prise en charge d'Elastic Fabric Adapter (EFA) avec NVIDIA GPUDirect RDMA (remote direct memory access). Les instances P4d sont déployées dans des clusters hyperscale appelés EC2 UltraClusters qui offrent des performances de type superordinateur pour les développeurs, les chercheurs et les scientifiques des données ML de tous les jours.
    Entraînement à grande échelle sensible au temps Instances Amazon EC2 P3 Les instances P3 offrent jusqu'à un pétaflop de performance en précision mixte par instance avec jusqu'à 8 GPU NVIDIA® V100 Tensor Core et jusqu'à 100 Gbps de débit réseau.
    Entraînement à petite échelle et à faible coût Instances Amazon EC2 G5

    Les instances G5 offrent des performances jusqu'à 3,3 fois supérieures pour l'entraînement au machine learning par rapport aux instances G4dn.

    Entraînement à petite échelle et à faible coût Instances Amazon EC2 G4 Les instances G4 offrent jusqu'à 65 TFLOP de performance FP16 et constituent une solution convaincante pour les tâches d'entraînement à petite échelle.

    Services d'orchestration

    Défi Solution AWS Comment
    Entraînement multi-nœuds Elastic Fabric Adapter EFA permet aux clients d'exécuter des applications nécessitant des niveaux élevés de communication entre les nœuds à l'aide d'une interface matérielle de contournement du système d'exploitation (OS) personnalisée.
    Orchestration complexe de conteneurs hautement évolutive Amazon Elastic Container Service (ECS) ECS est un service d'orchestration de conteneurs entièrement géré.
    Orchestration Kubernetes hautement évolutive Amazon Elastic Kubernetes Service (EKS) Vous pouvez utiliser Kubeflow avec EKS pour modéliser vos flux de travail de machine learning et exécuter efficacement des tâches d'entraînement distribuées.
    Entraînement à grande échelle AWS Batch Batch met dynamiquement en service la quantité et le type de ressources de calcul optimaux en fonction du volume et des besoins en ressources spécifiques des tâches par lots soumises.
    Optimisation des performances pour l'entraînement à grande échelle AWS ParallelCluster AWS ParallelCluster configure automatiquement les ressources de calcul et les systèmes de fichiers partagés requis pour les projets d'entraînement ML à grande échelle.

    Stockage

    Défi Solution AWS Comment
    Stockage évolutif Amazon S3 S3 peut facilement atteindre des milliers de transactions par seconde en tant que niveau de stockage.
    Débit et latence de l'accès au stockage Amazon FSx pour Lustre FSx pour Lustre intégré à S3 offre un stockage de fichiers partagé avec un débit élevé et des latences faibles et constantes.
    Traitement par lots sur des emplacements centraux Amazon Elastic File System (EFS) EFS permet d'accéder facilement à de grands ensembles de données de machine learning ou à du code partagé, directement à partir d'un environnement de bloc-notes, sans qu'il soit nécessaire de prévoir du stockage ou de se soucier de la gestion du système de fichiers en réseau.
    Haute performance d'E/S pour le stockage de travail temporaire Amazon Elastic Block Store (EBS) EBS offre une latence à un chiffre de millisecondes pour les besoins de stockage à haute performance.

    Services entièrement gérés

    Défi Solution AWS Comment
    Gestion et suivi des expériences Amazon SageMaker Experiments Évaluez et organisez des expériences d'entraînement de manière simple et évolutive, organisez des milliers d'expériences d'entraînement, enregistrez les artefacts d'expérience et visualisez rapidement les modèles.
    Modèles de débogage Amazon SageMaker Debugger Une interface visuelle pour analyser les données de débogage et observer des indicateurs visuels sur les anomalies potentielles dans le processus d'entraînement.
    Ajustement de modèle Ajustement automatique des modèles Amazon SageMaker Ajustez automatiquement les modèles en configurant des milliers de combinaisons de paramètres d'algorithmes différentes, afin de parvenir aux prévisions les plus précises que le modèle soit capable de produire.
  • Déployer
  • Une fois que vous avez entraîné et optimisé votre modèle au niveau d'exactitude et de précision souhaité, vous le mettez en production pour effectuer des prédictions. L'inférence est ce qui représente en fait la grande majorité du coût du machine learning. Selon les clients, l'inférence en machine learning peut représenter jusqu'à 90 % des coûts opérationnels globaux pour l'exécution des charges de travail de machine learning.

    Instances

    Défi Solution AWS Comment
    Coût élevé et faible performance Instances Amazon EC2 Inf1 Les instances Inf1 comportent jusqu'à 16 puces AWS Inferentia. Il s'agit de puces d'inférence en machine learning haute performance conçues et fabriquées par AWS.

    Inférence pour les modèles utilisant les bibliothèques NVIDIA CUDA, CuDNN ou TensorRT

    Instances Amazon EC2 G5

    Les instances G5 comportent jusqu'à 8 GPU NVIDIA A10G Tensor Core et offrent des performances jusqu'à 3 fois supérieures pour l'inférence en machine learning par rapport aux instances G4dn.

    Inférence pour les modèles utilisant les bibliothèques NVIDIA CUDA, CuDNN ou TensorRT Instances Amazon EC2 G4 Les instances G4 sont équipées de GPU NVIDIA T4 qui offrent un débit à faible latence jusqu'à 40 fois supérieur à celui des CPU.
    Inférence pour les modèles qui exploitent les instructions Intel AVX-512 Vector Neural Network (AVX512 VNNI) Instances Amazon EC2 C5 Les instances C5 intègrent la technologie Intel AVX-512 VNNI, qui permet d'accélérer les opérations typiques de machine learning, comme la convolution, et d'améliorer automatiquement les performances d'inférence sur un large éventail de charges de travail de deep learning.
    Dimensionnement de l'accélération de l'inférence pour un rapport prix/performance optimal Amazon Elastic Inference Elastic Inference vous permet d'attacher une accélération à faible coût alimentée par GPU aux instances Amazon EC2.
    Faible latence de l'inférence, traitement local des données ou exigences de stockage
    AWS Outposts AWS Outposts est un service entièrement géré qui permet d'étendre l'infrastructure, les services, les API et les outils AWS à pratiquement n'importe quels centres de données, espaces en colocalisation ou installations sur site.

    Inférence de mise à l'échelle

    Défi Solution AWS Comment
    Mise à l'échelle complexe de votre infrastructure AWS CloudFormation CloudFormation vous permet d'utiliser des langages de programmation ou un simple fichier texte pour modéliser et approvisionner, de manière automatisée et sécurisée, toutes les ressources nécessaires pour vos applications à travers toutes les régions et tous les comptes.
    Capacité de mise à l'échelle imprévisible de votre infrastructure AWS Auto Scaling AWS Auto Scaling contrôle vos applications et ajuste automatiquement la capacité pour maintenir des performances constantes et prévisibles au coût le plus avantageux possible.
    Utilisation imprévisible des instances EC2 Amazon EC2 Fleet Avec un seul appel d'API, vous pouvez provisionner la capacité sur les types d'instance EC2 et sur les modèles d'achat pour atteindre l'échelle, la performance et le coût souhaités.
    Garantir la précision du modèle Amazon SageMaker Model Monitor Surveillez en permanence la qualité des modèles de machine learning en production et recevez des alertes en cas d'écarts de qualité des modèles sans créer d'outils supplémentaires.
    Gestion des coûts d'inférence Amazon SageMaker Multi-Model Endpoints Déployez plusieurs modèles en un seul clic sur un seul point de terminaison et mettez-les à disposition à l'aide d'un seul conteneur de service de façon à offrir un moyen évolutif et rentable de déployer un grand nombre de modèles.
Toyota

« Les instances P3 nous ont aidés à réduire le temps d'entraînement des modèles de machine learning de plusieurs jours à quelques heures. Nous sommes aujourd'hui impatients d'utiliser les instances P4d, car la mémoire GPU supplémentaire et les formats flottants plus efficaces nous permettront d'assurer encore plus rapidement l'entraînement de modèles plus complexes. »

Intuit

Intuit a tout misé sur AWS et utilise AWS pour mieux servir ses clients. Intuit utilise Amazon SageMaker pour former rapidement et à grande échelle ses modèles de machine learning, réduisant ainsi le délai de déploiement des modèles de 90 %. En savoir plus.

GE Healthcare

« Avec les précédents clusters GPU, il fallait des jours pour entraîner des modèles d'IA complexes, tels que les réseaux GAN progressifs, pour des simulations et pour visualiser les résultats. L'utilisation des nouvelles instances P4d a permis de réduire le temps de traitement de plusieurs jours à quelques heures. Nous avons constaté une vitesse deux à trois fois supérieure pour entraîner les modèles. »

Capital One

Capital One transforme les données en connaissances grâce au machine learning, ce qui lui permet d'innover rapidement pour le compte de ses clients. Capital One utilise les services AWS, y compris Amazon S3, pour optimiser son innovation en matière de machine learning. En savoir plus.

Zillow

Zillow exécute ses algorithmes de ML en utilisant Spark sur Amazon EMR afin de créer rapidement des clusters évolutifs et d'utiliser les capacités de traitement distribué pour traiter de grands ensembles de données en temps quasi réel, créer des caractéristiques, entraîner et noter des millions de modèles de ML. En savoir plus.

Les chiffres parlent d'eux-mêmes

Performances

2,5 fois plus

de performances deep learning pour les P4d par rapport à la génération précédente d'instances P3, offrant les meilleures performances dans le cloud.

Performances

62 minutes

est le temps record pour entraîner BERT avec TensorFlow en utilisant 256 instances P3dn.24xlarge avec 2 048 GPU.

Faible coût

40 % de réduction

du coût par inférence pour les instances Inf1 par rapport aux instances G4, offrant ainsi le coût le plus bas par inférence dans le cloud.

Disponibilité

22 régions géographiques mondiales

avec jusqu'à 69 zones de disponibilité disponibles pour de nombreux services d'infrastructure de machine learning AWS.

Avantages

  • Hautes performances
  • Souvent, l'efficacité du développement des scientifiques des données et des ingénieurs ML est limitée par la fréquence à laquelle ils peuvent entraîner leurs modèles de deep learning pour intégrer de nouvelles fonctionnalités, améliorer la précision des prédictions ou s'adapter à la dérive des données. AWS fournit une infrastructure de calcul, de mise en réseau et de stockage de haute performance, disponible à grande échelle sur la base d'une tarification à l'usage, ce qui permet aux équipes de développement d'entraîner leurs modèles en fonction des besoins et de ne pas laisser l'infrastructure freiner leur innovation.

    Calcul : réduisez le temps d'entraînement à quelques minutes et renforcez votre inférence

    AWS fournit les premières instances du secteur créées spécialement pour l'entraînement et l'inférence en ML.

    Les instances Amazon EC2 Trn1, optimisées par les puces AWS Trainium, sont créées spécialement pour entraîner le deep learning de manière performante et économique. Ces instances offrent les meilleures performances du secteur tout en permettant de réduire jusqu'à 50 % le coût de l'entraînement par rapport aux instances comparables basées sur les GPU. Les instances Trn1 sont alimentées par jusqu'à 16 puces AWS Trainium. Chaque puce comprend deux accélérateurs NeuronCore de deuxième génération, créés spécialement pour les algorithmes de deep learning. Les instances Trn1 sont les premières instances EC2 disposant d'une bande passante réseau Elastic Fabric Adapter (EFA) pouvant atteindre 800 Gbit/s. Elles sont déployées dans des UltraClusters EC2 qui permettent de mettre à l'échelle jusqu'à 30 000 accélérateurs Trainium, qui sont interconnectés avec un réseau non bloquant à l'échelle du pétabit pour fournir jusqu'à 6,3 exaflops de calcul.

    Amazon EC2 Trn1

    Pour le déploiement de modèles entraînés en production, les instances Amazon EC2 Inf1 offrent des performances élevées et l'inférence en machine deep learning la plus économique dans le cloud. Ces instances sont équipées de puces AWS Inferentia, des puces d'inférence en machine learning à haute performance conçues et créées par AWS. Les instances Inf1 peuvent atteindre une performance de 2 000 tera-opérations par seconde (TOPS) avec 1 à 16 puces AWS Inferentia par instance.

    Amazon EC2 Inf1

    Mise en réseau : infrastructure évolutive pour un entraînement distribué efficace ou une inférence de montée en puissance

    Entraîner un grand modèle prend du temps, et plus le modèle est grand et complexe, plus l'entraînement sera long. AWS dispose de plusieurs solutions de mise en réseau pour aider les clients à faire évoluer leurs déploiements multi-nœuds afin de réduire le temps d'entraînement. Elastic Fabric Adapter (EFA) est une interface réseau pour les instances Amazon EC2 qui permet aux clients d'exécuter des applications nécessitant de hauts niveaux de communications entre les nœuds à grande échelle sur AWS. Son interface matérielle de contournement du système d'exploitation (OS) sur mesure améliore les performances des communications entre instances, ce qui est essentiel pour une mise à l'échelle efficace. Avec EFA, les applications d'entraînement en machine learning utilisant la bibliothèque de communications collectives de NVIDIA (NCCL, NVIDIA Collective Communications Library) peuvent évoluer vers des milliers de GPU. Avec une bande passante réseau pouvant atteindre 400 Gbps par instance et NVIDIA GPUDirect RDMA (remote direct memory access) pour une communication GPU à GPU à faible latence entre les instances, vous obtenez les mêmes performances que les clusters GPU sur site coûteux avec l'élasticité et la flexibilité à la demande du cloud AWS.

    Page-Illo_EC2 Overviews and Features_Enhanced Networking and EFA.png

    Stockage : options idéales pour créer des lacunes dans les données ou gérer des données étiquetées

    Des organisations de toutes tailles, dans tous les secteurs d'activité, utilisent des lacs de données pour les transformer en une ressource métier, au lieu d'une simple source de coûts, qui peut être utilisée pour obtenir des informations commerciales précieuses ou pour offrir des expériences client améliorées avec l'aide du machine learning. Amazon Simple Storage Service (S3) est le service de stockage objet le plus important et le plus performant pour les données structurées et non structurées, ainsi que le service de stockage privilégié pour créer un lac de données. Avec Simple Storage Service (Amazon S3), vous pouvez créer et faire évoluer de manière rentable un lac de données de n'importe quelle taille dans un environnement sécurisé où les données sont protégées par une durabilité de 99,999999999 % (onze 9). Pour l'entraînement distribué, si vous avez besoin d'un accès plus rapide à vos données étiquetées, Amazon FSx pour Lustre offre des performances optimisées pour des latences inférieures à la milliseconde et un débit pouvant atteindre des centaines de gigaoctets par seconde. FSx pour Lustre est intégré à Amazon S3, ce qui simplifie le traitement des ensembles de données avec le système de fichiers Lustre. Lorsqu'il est lié à un compartiment S3, un système de fichiers FSx pour Lustre présente, de manière transparente, les objets S3 en tant que fichiers et vous permet de réécrire les données dans Amazon S3.

    Amazon Simple Storage Service (S3)
  • Rentabilité
  • Les organisations adoptent rapidement l'utilisation du deep learning pour créer des applications inédites. Si l'on ajoute à cela l'augmentation rapide de la complexité des modèles, les coûts pour créer, entraîner et déployer des applications de machine learning s'accumulent rapidement. Au moment où les entreprises passent de l'exploration et de l'expérimentation du machine learning au déploiement de leurs applications à grande échelle, AWS offre la combinaison idéale de performances et de services d'infrastructure à faible coût sur l'ensemble du cycle de développement des applications.

    Coût le plus bas du secteur pour l'inférence ML

    L'inférence en machine learning peut représenter jusqu'à 90 % des coûts opérationnels globaux pour l'exécution d'applications de machine learning en production. Les instances Amazon EC2 Inf1 offrent l'inférence en machine learning haute performance la plus économique dans le cloud. Les instances Inf1 sont créées de A à Z pour prendre en charge les applications d'inférence en machine learning. Elles comportent jusqu'à 16 puces AWS Inferentia, des puces d'inférence en machine learning haute performance conçues et créées par AWS. Chaque puce AWS Inferentia offre des performances allant jusqu'à 128 TOPS (tera-opérations par seconde) à faible consommation d'énergie pour permettre une grande efficience.

    Amazon EC2 Inf1

    Pour les applications qui ont besoin de GPU pour exécuter leurs modèles en production, les instances Amazon EC2 G4 sont les instances GPU les plus rentables du secteur. Équipées de GPU NVIDIA T4, ces instances sont disponibles en différentes tailles, avec un accès à un ou plusieurs GPU avec différentes quantités de vCPU et de mémoire, ce qui vous permet de choisir la taille d'instance adaptée à vos applications.

    Amazon EC2 G4

    Tous les modèles de machine learning sont uniques et différents modèles bénéficient de différents niveaux d'accélération matérielle. Les instances Amazon EC2 C5 basées sur Intel offrent le plus bas prix par processeur virtuel (vCPU) de la famille d'instances Amazon EC2 et sont idéales pour l'exécution de charges de travail avancées gourmandes en calcul. Ces instances prennent en charge Intel Deep Learning Boost et peuvent offrir un équilibre idéal entre performances et coûts pour l'exécution de modèles ML en production.

    Amazon EC2 C5

    Amazon Elastic Inference vous permet d'associer une accélération à faible coût alimentée par GPU aux instances Amazon EC2, aux instances Amazon SageMaker ou aux tâches Amazon ECS afin de réduire jusqu'à 75 % le coût d'exécution de l'inférence en deep learning.

    Amazon Elastic Inference

    Un large choix d'instances de GPU pour optimiser le temps et le coût d'entraînement, disponibles à grande échelle

    Selon le type d'application de machine learning, les clients préfèrent optimiser leurs cycles de développement afin de réduire le temps nécessaire pour entraîner leurs modèles ML ou le coût total de l'entraînement. Dans la plupart des cas, les coûts de formation comprennent non seulement le coût de la formation, mais aussi le coût d'opportunité du temps d'inactivité que les ingénieurs ML et les scientifiques des données auraient pu consacrer à l'optimisation de leur modèle.

    Les instances Amazon EC2 G4 offrent la plateforme GPU la plus rentable du secteur. Ces instances sont optimales pour entraîner des modèles moins complexes et sont idéales pour les entreprises ou les institutions qui sont moins sensibles au temps d'entraînement. Les instances G4 donnent accès à un maximum de huit GPU NVIDIA T4, chacun offrant jusqu'à 65 TFLOPs de performance FP16.

    Amazon EC2 G4

    Les instances Amazon EC2 P4 offrent les meilleures performances de leur catégorie en matière d'instances uniques et d'entraînement distribué, ce qui permet aux équipes d'ingénieurs de réduire considérablement le temps d'itération de leurs modèles, d'accélérer la mise sur le marché et d'optimiser leurs dépenses d'ingénierie globales. Ces instances offrent un coût jusqu'à 60 % inférieur à celui des instances P3 de la génération précédente et peuvent être déployées via toutes les options de tarification EC2 avec une réduction pouvant atteindre 90 % en utilisant Spot. Comme les performances des GPU et des accélérateurs matériels de ML sont multipliées par deux au moins tous les 18 mois, l'utilisation de l'infrastructure AWS sur un modèle de tarification à l'usage vous permet de profiter des meilleures performances au prix le plus bas sans immobiliser de précieuses dépenses en capital pour des clusters sur site dont la durée de vie est limitée.

    Amazon EC2 P4

    Les instances Amazon EC2 P3 et P3dn offrent un calcul haute performance dans le cloud avec jusqu'à 8 GPU NVIDIA® V100 Tensor Core et jusqu'à 100 Gbit/s de débit réseau pour le machine learning et les applications HPC. Ces instances offrent jusqu'à 1 pétaflop de performances de précision mixte par instance pour accélérer significativement les applications d'apprentissage automatique et de calcul haute performance. Les instances P3 et P3dn sont disponibles en quatre tailles offrant jusqu'à 8 GPU et 96 vCPU et sont disponibles dans le monde entier dans 18 régions AWS.

    Instances Amazon EC2 P3 et P3dn
  • Flexibilité élevée
  • Prise en charge de tous les principaux cadres de machine learning

    Des cadres tels que TensorFlow et PyTorch éliminent une grande partie des détails qu'impliquent la création de modèles ML et permettent aux développeurs de se concentrer sur la logique globale et le flux de données de leur modèle. Plus de 70 % des entreprises qui créent des applications de machine learning ont déclaré que leurs équipes utilisent un mélange de différents cadres de ML. L'infrastructure AWS ML prend en charge tous les cadres de deep learning les plus courants, ce qui permet à vos équipes de choisir le cadre qui correspond à leurs préférences et à leur efficacité de développement.

    TensorFlow
    PyTorch
    mxnet
    Keras
    Gluon
    Horovod

    Optimisations qui s'insèrent dans les cadres

    Chez AWS, nous nous efforçons de permettre aux clients non seulement d'exécuter leurs charges de travail de ML sur AWS, mais aussi de leur donner la liberté ultime de choisir le cadre de ML ou les services d'infrastructure qui leur conviennent le mieux. L'optimisation logicielle pour entraîner et déployer efficacement des modèles sur les services d'infrastructure AWS est intégrée aux cadres de ML les plus populaires (TensorFlow, PyTorch et MXNet), ce qui permet aux clients de continuer à utiliser le cadre qu'ils préfèrent et de ne pas être contraints à un cadre ou une architecture matérielle spécifique. Le fonctionnement au niveau du cadre permet aux clients de toujours choisir la meilleure solution pour leurs besoins et de ne pas être liés à une architecture matérielle ou à un fournisseur de cloud spécifique.

    AWS Neuron est le kit SDK pour les puces AWS Inferentia et AWS Trainium. Grâce à AWS Neuron, vous pouvez organiser des entraînements en ML performants et rentables en utilisant des instances Amazon EC2 Trn1 basées sur AWS Trainium. Vous pouvez également exécuter une inférence à haute performance et à faible latence en utilisant des instances Amazon EC2 Inf1 basées sur AWS Inferentia. AWS Neuron est intégré de manière native aux cadres populaires, tels que TensorFlow, PyTorch et MXNet. Pour accélérer l'entraînement avec les instances EC2 Trn1 et l'inférence avec les instances EC2 Inf1, vous pouvez utiliser vos modèles pré-entraînés et ne modifier que quelques lignes de code à partir du cadre.

    AWS Neuron

    Afin de prendre en charge un entraînement efficace sur plusieurs nœuds/distribué, AWS a intégré Elastic Fabric Adapter (EFA) à la bibliothèque NVIDIA Collective Communications Library (NCCL), qui permet de communiquer entre plusieurs GPU au sein d'un même nœud ou sur plusieurs nœuds. Comme pour AWS Neuron, les clients peuvent continuer à utiliser le cadre de ML de leur choix pour créer leurs modèles et profiter de l'optimisation de l'infrastructure AWS.

    Nvidia

Options de tarification

Les charges de travail d'inférence et d'entraînement en machine learning peuvent présenter des caractéristiques stables (comme l'étiquetage par lots de photos toutes les heures pour une grande population), des particularités (comme le lancement de nouvelles tâches d'entraînement ou de recommandations de recherche pendant les périodes de promotion), ou les deux. AWS propose des options et des solutions tarifaires pour vous aider à optimiser les performances et les coûts de votre infrastructure.

Options de tarification

 

 

A : utiliser des instances Spot pour des charges de travail flexibles et tolérantes aux pannes, telles que des tâches d'entraînement en ML qui ne sont pas sensibles au temps

B : utiliser les instances à la demande pour les charges de travail nouvelles ou à état particulier, telles que les tâches d'entraînement à court terme en ML

C : utiliser les Savings Plans pour les charges de travail connues/stables, telles que les charges de travail d'inférence stables

Cas d'utilisation Solution AWS Comment
Tâches d'entraînement à court terme Tarification à la demande Grâce aux instances à la demande, vous payez une capacité de calcul à l'heure ou à la seconde en fonction des instances que vous exécutez.
Entraîner des tâches dont les horaires de début et de fin sont flexibles Tarification Spot Les instances Spot Amazon EC2 vous permettent d'enchérir sur les capacités de calcul Amazon EC2 non utilisées pour économiser jusqu'à 90 % du prix des instances à la demande.
Charges de travail constantes de machine learning sur différents types d'instance sur une longue période de temps Savings Plans Les Savings Plans permettent de réaliser des économies importantes par rapport aux prix à la demande, en échange d'un engagement à utiliser une quantité spécifique de puissance de calcul pendant une période d'une ou trois années.