Instances Inf1 d'Amazon EC2

Inférence machine learning haute performance et à moindre coût dans le cloud

Les clients d'un large éventail de secteurs font appel au machine learning pour traiter les cas d'utilisation courants tels que la fourniture de recommandations d'achat personnalisées, l'amélioration de la modération du contenu en ligne et l'amélioration de l'engagement client avec des chatbots sensibles au contexte. Mais plus les modèles de machine learning sont puissants, plus ils sont complexes. La montée des besoins en capacités de calcul entraîne une hausse des coûts. L'inférence absorbe ainsi jusqu'à 90 % des dépenses d'infrastructure pour le développement et l'exécution d'une application de machine learning. Les besoins en infrastructure d'inférence de machine learning haute performance et rentable deviennent donc déterminants.

Les instances Inf1 d'Amazon EC2 offrent un débit jusqu'à 30 % plus élevé et un coût par inférence jusqu'à 45 % inférieur à celui des instances Amazon EC2 G4, alors même que ces dernières étaient déjà les instances les moins chères pour l'inférence de machine learning dans le cloud. Les instances Inf1 sont créées de A à Z pour prendre en charge les applications d'inférence de machine learning. Elles comportent jusqu'à 16 puces AWS Inferentia. Il s'agit de puces d'inférence de machine learning spécialement conçues et fabriquées par AWS pour offrir des performances élevées. En outre, elles sont dotées des derniers processeurs Intel® Xeon® Scalable de 2e génération, et offrent une mise en réseau à un débit atteignant 100 Gbit/s pour assurer une inférence à haut débit. Les clients qui utilisent les instances Inf1 peuvent exécuter à moindre coût dans le cloud des applications d'inférence de machine learning à grande échelle comme la recherche de recommandations, l'aide visuelle par ordinateur, la reconnaissance vocale, le traitement du langage naturel, la personnalisation, et la détection des fraudes.

Les développeurs peuvent déployer leurs modèles de machine learning dans les instances Inf1 à l'aide du kit SDK AWS Neuron, qui est intégré dans les principaux frameworks de machine learning comme TensorFlow, PyTorch et MXNet. Ils sont constitués d'un compilateur, d'un environnement d'exécution et d'outils de profilage destinés à optimiser les performances des inférences sur AWS Inferentia. Avec les instances Inf1, le plus simple est de commencer avec Amazon SageMaker, un service entièrement géré qui permet aux développeurs de créer, d'entraîner et de déployer rapidement des modèles de machine learning. Quant aux développeurs qui préfèrent gérer leur propre plateforme de développement d'applications de machine learning, ils peuvent faire leurs premiers pas soit en lançant les instances Inf1 avec des AMI AWS Deep Learning, dont le kit SDK Neuron, soit utiliser les instances Inf1 avec Amazon Elastic Kubernetes Service (EKS) ou Amazon Elastic Container Service (ECS) pour les applications ML conteneurisées.

SiteMerch-EC2-Instances_accelerated-trial_2up

Essai gratuit : jusqu'à 10 000 USD de crédits AWS pour les instances accélérées matérielles EC2, idéales pour les applications ML, HPC et Graphics.

Cliquer ici pour faire une demande 
Amazon EC2 Inf1 instances based on AWS Inferentia (2:51)

Avantages

Jusqu'à 45 % de réduction du coût par inférence

Le haut débit des instances Inf1 permet d'obtenir le coût par inférence le plus bas dans le cloud. En effet, avec ces instances, vous pouvez avoir des coûts par inférence jusqu'à 45 % inférieurs à ceux des instances Amazon EC2 G4 alors même que ces dernières étaient déjà les instances les moins chères pour l'inférence de machine learning dans le cloud. Étant donné que l'inférence de machine learning représente jusqu'à 90 % des coûts d'exploitation globaux pour l'exécution des charges de travail de machine learning, il apparaît que l'utilisation d'instances Inf1 permet de faire de larges économies.

Débit jusqu'à 30 % plus élevé

Les instances Inf1 offrent un débit élevé pour les applications d'inférence par lots, jusqu'à 30 % supérieur à celui des instances Amazon EC2 G4. Les applications d'inférence par lots (applications de marquage de photos, par exemple) sont sensibles au débit d'inférence ou au nombre d'inférences qui peuvent être traitées par seconde. Les instances Inf1 sont optimisées pour les petits lots, ce qui est capital pour les applications avec des temps de réponse stricts. Les instances Inf1 peuvent atteindre une performance de 2 000 tera-opérations par seconde (TOPS) avec 1 à 16 puces AWS Inferentia par instance.

Temps de latence extrêmement faible

Les instances Inf1 assurent une faible latence pour les applications de traitement en temps réel. Les applications d'inférence en temps réel, comme la synthèse et la recherche vocales, doivent rapidement faire des inférences en réponse aux données entrées par un utilisateur. Elles sont sensibles à la latence d'inférence. La grande mémoire sur puce des puces AWS Inferentia utilisées dans les instances Inf1 permet la mise en cache des modèles de machine learning directement sur la puce. Avec cette configuration, il n'est plus nécessaire d'accéder à des ressources mémoire externes pendant l'inférence, ce qui garantit une faible latence sans effet sur la bande passante.

L'inférence de machine learning convient à un large éventail de cas d'utilisation

Les développeurs peuvent exploiter l'inférence haute performance, à faible latence, et économique avec les instances Inf1 pour de nombreuses applications de machine learning et dans divers secteurs (analyse d'images et vidéo, agents de conversation, détection des fraudes, prévisions financières, automatisation des soins de santé, moteurs de recommandation, analyse et transcription de textes).

Simplicité d'utilisation et portabilité du code

Les développeurs peuvent déployer leurs modèles de machine learning dans les instances EC2 Inf1 à l'aide du kit SDK AWS Neuron, qui est intégré dans les principaux frameworks de machine learning comme TensorFlow et PyTorch. Ils peuvent ainsi continuer à utiliser leur framework ML, choisir la plateforme de calcul adaptée à leurs exigences en matière de tarif et bénéficier des technologies les plus récentes sans dépendre des bibliothèques de logiciels de tel ou tel fournisseur.

Prise en charge des modèles et des données de machine learning

Les instances Inf1 associées à AWS Neuron prennent en charge de nombreux modèles de machine learning couramment utilisés comme le détecteur de prise de vue unique (SSD) et ResNet pour la reconnaissance/classification des images, ainsi que Transformer et BERT pour le traitement et la traduction du langage naturel. Les instances INT8, BF16 et FP16 de précision mixte prennent également en charge un large éventail de modèles et de besoins de performances.

Fonctionnalités

À technologie AWS Inferentia

AWS Inferentia est une puce d'inférence de machine learning conçue par AWS pour offrir des inférences haute performance à faible coût. Chaque puce AWS Inferentia offre des performances allant jusqu'à 128 TOPS (tera-opérations par seconde) et prend en charge les données FP16, BF16 et INT8. Les puces AWS Inferentia disposent également d'une grande mémoire qui peut être utilisée pour la mise en cache de modèles conséquents, ce qui est particulièrement avantageux pour les modèles qui nécessitent un accès fréquent à la mémoire.

Le kit de développement logiciel (SDK) AWS Neuron comprend un compilateur, un environnement d'exécution et des outils de profilage. Il permet d'exécuter des modèles de réseaux de neurones complexes, créés et formés dans des frameworks courants, tels que TensorFlow, PyTorch et MXNet, à l'aide des instances Inf1. AWS Neuron prend également en charge la division de grands modèles à exécuter sur plusieurs puces Inferentia via une interconnexion physique haute vitesse, offrant un débit d'inférence élevé et des coûts réduits.

Mise en réseau et stockage hautes performances

Les instances Inf1 proposent jusqu'à 100 Gbits/s de débit réseau pour les applications nécessitant un accès à la mise en réseau à haut débit. L'adaptateur Elastic Network Adapter (ENA) et la technologie NVM Express (NVMe) de nouvelle génération fournissent des instances Inf1 avec des interfaces à faible latence et à débit élevé pour la mise en réseau et Amazon Elastic Block Store (Amazon EBS).

Basé sur le système AWS Nitro

Le système AWS Nitro est un ensemble étendu de composants qui décharge de nombreuses fonctions de virtualisation traditionnelles sur du matériel et des logiciels dédiés afin d'offrir des niveaux élevés de performances, de disponibilité et de sécurité, tout en réduisant les frais de virtualisation.

Fonctionnement

Mode d'emploi d'Inf1 et d'AWS Inferentia

Témoignages de clients

SkyWatch
« Nous intégrons le machine learning (ML) dans de nombreux aspects de Snapchat, et la recherche d'innovations dans ce domaine est une priorité essentielle. Dès que nous avons entendu parler d'Inferentia, nous avons commencé à collaborer avec AWS pour adopter des instances Inf1/Inferentia afin de nous aider dans le déploiement du ML, notamment en termes de performance et de coût. Nous avons commencé par nos modèles de recommandation, et nous espérons adopter d'autres modèles avec les instances Inf1 à l'avenir. »

Nima Khajehnouri, Vice-Président Ingénierie, Snap Inc.

Anthem
Anthem est l'une des principales sociétés d'assurance maladie du pays qui répond aux besoins en soins de santé de plus de 40 millions de membres dans des dizaines d'États. « Le marché des plateformes numériques de santé croît à un rythme remarquable. Recueillir des informations sur ce marché est une tâche difficile en raison de la grande quantité de données sur les opinions des clients et de sa nature non structurée. Notre application automatise la génération d'informations exploitables à partir des opinions des clients via des modèles de langage naturel de machine learning (Transformateurs). Notre application recours intensivement au calcul et doit être déployée de manière très performante. Nous avons déployé de manière transparente notre charge de travail d'inférence de machine learning sur des instances Inf1 d'Amazon EC2 optimisées par le processeur AWS Inferentia. Les nouvelles instances Inf1 offrent un débit 2 fois supérieur aux instances basées sur le GPU et nous ont permis de simplifier nos charges de travail d'inférence ».

Numan Laanait, PhD, scientifique principal de l’IA/ des données, et Miro Mihaylov, PhD, scientifique principal de l’IA/ des données

Anthem
« Autodesk fait progresser la technologie cognitive de notre assistant virtuel doté d'une IA (intelligence artificielle) Autodesk Virtual Agent (AVA), en utilisant Inferentia. AVA répond à plus de 100 000 questions de clients par mois en appliquant la compréhension du langage naturel (NLU) et des techniques de deep learning pour extraire le contexte, l'intention et la signification des demandes de renseignements. En pilotant Inferentia, nous sommes en mesure d'obtenir un débit 4,9 fois supérieur à celui de G4dn pour nos modèles NLU, et nous sommes impatients de traiter davantage de charges de travail sur les instances Inf1 basées sur Inferentia. »

Binghui Ouyang, Scientifique des données Senior, Autodesk

Condé Nast
« Le portefeuille mondial de Condé Nast détient plus de 20 grandes marques médiatiques, dont Wired, Vogue et Vanity Fair. En quelques semaines, notre équipe a réussi à intégrer notre moteur de recommandation aux puces d’AWS Inferentia. Cette alliance permet de multiples optimisations pour l'exécution de modèles de langue naturels de dernière génération sur les instances Inf1 de SageMaker. Résultat : nous avons constaté une réduction des coûts de 72 % par rapport aux instances GPU déployées précédemment. »

Paul Fryzel, ingénieur principal, Infrastructure IA

Asahi Shimbun
« Ciao fait évoluer les caméras de sécurité conventionnelles et en fait des caméras d’analyse haute performance, dont les capacités équivalent à celles de l’œil humain. Notre application permet d’améliorer la prévention des catastrophes, puisqu’elle offre un suivi des conditions environnementales grâce à des solutions de caméras IA basées sur le Cloud qui lancent un signal d’alerte avant qu’une situation ne dégénère jusqu’à devenir une catastrophe. Ces alertes permettent de réagir avant qu’il ne soit trop tard. En nous basant sur la détection d’objet, nous pouvons également fournir des informations en estimant, sans impliquer le personnel, le nombre de clients qui entrent, à partir de vidéos dans des magasins physiques. Sur le plan commercial, Ciao Camera a adopté des instances Inf1 basées sur AWS Inferentia, qui offrent un rapport qualité/prix 40 % plus intéressant que H4dn avec YOLOv4. Nous sommes impatients d’avoir davantage de services avec Inf1, afin d’améliorer, là aussi, le rapport qualité/prix. »

Shinji Matsumoto, Ingénieur logiciel, Ciao Inc.

Asahi Shimbun
« L'Asahi Shimbun est l'un des quotidiens les plus populaires au Japon. Media Lab, qui s'est établi comme l'un des départements de notre entreprise, a pour missions d'étudier les dernières technologies, en particulier l'IA, ainsi que de relier les technologies de pointe pour les nouvelles entreprises. Suite au lancement des instances Amazon EC2 Inf1, basées sur AWS Inferentia, à Tokyo, nous avons testé notre application d'IA de synthèse de texte, basée sur PyTorch, sur ces instances. Cette application traite une quantité importante de texte et génère des titres ainsi que des phrases de résumé inspirées d'articles de ces 30 dernières années. À l'aide d'Inferentia, nous avons considérablement réduit les coûts liés aux instances basées sur les processeurs. Cette réduction spectaculaire des coûts va nous permettre de déployer nos modèles les plus complexes à grande échelle, ce qui n'était auparavant pas possible économiquement. »

Dr Hideaki Tamori, administrateur principal chez Media Lab et The Asahi Shimbun Company

CS Disco
« CS Disco réinvente les technologies juridiques en tant que principal fournisseur de solutions d'IA pour la découverte électronique, développées par des avocats, pour les avocats. Disco AI permet d’accélérer cette tâche ingrate qui consiste à passer au crible des téraoctets de données, réduisant les délais d’examen pour une meilleure précision. Elle tire parti de modèles complexes de traitement du langage naturel, dont le calcul et le coût sont prohibitifs. Disco a découvert que les instances Inf1 basées sur AWS Inferentia permettaient de réduire les coûts d’inférence dans Disco AI d’au moins 35 % par rapport aux instances GPU actuelles. Forte de cette expérience concluante avec les instances Inf1, CS Disco s’emploiera désormais à explorer d’autres possibilités en matière de migration vers Inferentia. »

Alan Lockett, directeur général pour la recherche au sein de CS Disco

Talroo
« Chez Talroo, nous offrons à nos clients une plateforme guidée par les données qui leur permet d'attirer et de recruter des candidats uniques. Nous recherchons sans cesse de nouvelles technologies pour nous assurer que nous offrons les meilleurs produits et services à nos clients. À l'aide d'Inferentia, nous extrayons des informations à partir d'un corpus de données de texte, afin d'améliorer notre technologie de recherche et de correspondance alimentée par l'IA. Talroo tire parti des instances Amazon EC2 Inf1 afin de créer des modèles de compréhension du langage naturel à haut débit avec SageMaker. Les premiers essais réalisés par Talroo montrent que les instances Amazon EC2 lnf1 offrent une latence d'inférence 40 % inférieure et un débit deux fois supérieur par rapport aux instances GPU G4dn. Sur la base de ces résultats, Talroo est impatient d'utiliser les instances Amazon EC2 lnf1 dans le cadre de son infrastructure AWS. »

Janet Hu, ingénieure logiciel chez Talroo

Digital Media Professionals (DMP)
Digital Media Professionals (DMP) visualise l'avenir avec une plateforme ZIA en temps réel basée sur l'IA (intelligence artificielle). Les technologies efficaces de classification par vision par ordinateur de DMP sont utilisées pour obtenir des informations sur une grande quantité de données d'image en temps réel, telles que l'observation des conditions, la prévention du crime et la prévention des accidents. Nous évaluons activement les instances Inf1 par rapport aux options alternatives, car nous pensons qu'Inferentia nous donnera les performances et la structure de coûts dont nous avons besoin pour déployer nos applications d'IA à grande échelle. » 

Hiroyuki Umeda - Directeur et directeur général, Sales & Marketing Group, Digital Media Professionals

Hotpot.ai
Hotpot.ai X permet aux non concepteurs de créer des graphiques attrayants et aide les concepteurs professionnels à automatiser les tâches routinières. « Le machine learning étant au cœur de notre stratégie, nous étions ravis d'essayer les instances Inf1 AWS Inferentia. Nous avons trouvé les instances Inf1 faciles à intégrer dans notre pipeline de recherche et développement. Mais surtout, nous avons observé des gains de performance impressionnants par rapport aux instances basées sur le GPU G4dn. Avec notre premier modèle, les instances Inf1 ont permis d'augmenter le débit d'environ 45 % et de réduire le coût par inférence de près de 50 %. Nous avons l'intention de travailler en étroite collaboration avec l'équipe AWS pour porter d'autres modèles et transférer la majeure partie de notre infrastructure d'inférence ML vers AWS Inferentia ».

Clarence Hu, fondateur de Hotpot.ai

INGA
« La mission d’INGA consiste à créer des solutions avancées de résumé de texte basées sur l’intelligence artificielle et le deep learning. Ces solutions doivent s’intégrer facilement dans les pipelines de l’entreprise. Nous sommes convaincus que le résumé de texte est essentiel pour aider les entreprises à tirer des informations précieuses des données. Nous avons rapidement progressé en nous servant des instances Inf1 d'Amazon EC2 basées sur AWS Inferentia, et nous les avons intégrées dans notre pipeline de développement. L'impact a été fulgurant. Les instances Inf1 offrent des performances élevées, ce qui nous a permis d'optimiser l'efficacité de nos pipelines de modèles d'inférence. Dès le début, nous avons constaté un débit 4 fois plus élevé et des coûts de pipeline 30 % inférieur à ceux de notre pipeline GPU. »

Yaroslav Shakula, directeur du développement commercial, INGA Technologies

SkyWatch
« SkyWatch traite des centaines de milliards de pixels de données d'observation de la Terre qui sont capturées quotidiennement dans l'espace. L'adoption des nouvelles instance Inf1 AWS Inferentia qui utilisent Amazon SageMaker pour la détection des nuages et la notation de la qualité des images en temps réel a été simple et rapide. Il nous a suffi de modifier le type d'instance dans notre configuration de déploiement. En passant aux instances Inferentia Inf1, nous avons amélioré les performances de 40 % et réduit les coûts de 23 %. C'est un véritable exploit. Nous avons pu réduire les coûts opérationnels tout en continuant à fournir des images satellite d'excellente qualité à nos clients, le tout sans coûts d'ingénierie exorbitants. Nous sommes impatients d'opérer la transition vers les instances Inf1 pour l'ensemble de nos points de terminaison d'inférence et de nos processus de machine learning par lots afin d'améliorer encore la fiabilité de nos données et l'expérience de nos clients. »

Adler Santos, Responsable de l’ingénierie, SkyWatch

Service Amazon utilisant les instances Inf1 Amazon EC2

Amazon Alexa

Plus de 100 millions d'appareils Alexa ont été vendus dans le monde. Nous avons reçu plus de 400 000 évaluations 5 étoiles pour les appareils Echo sur Amazon. « L'IA et le machine learning d'Amazon Alexa, qui reposent sur la technologie Amazon Web Services, sont désormais utilisés sur plus de 100 millions d'appareils. Nous nous sommes engagés à rendre Alexa encore plus intelligent, plus communicatif, plus proactif et plus convivial », affirme Tom Taylor, Vice-président senior chez Amazon Alexa. « Pour tenir cette promesse, nous devons continuer à réduire les temps de réponse et les coûts d'infrastructure de machine learning. Nous sommes donc extrêmement impatients d'utiliser les instances Inf1 Amazon EC2, qui nous aideront à réduire la latence d'inférence et le coût par inférence de la synthèse vocale d'Alexa. Avec Amazon EC2 Inf1, nous pourrons perfectionner le service rendu aux dizaines de millions de personnes qui utilisent Alexa quotidiennement. »

Amazon Alexa
« Amazon Rekognition est une application simple et facile d'analyse d'images et de vidéos qui aide le client à identifier des objets, des personnes, du texte et des activités. Amazon Rekognition nécessite une infrastructure de deep learning hautement performante, capable d'analyser quotidiennement des milliards d'images et de vidéos pour nos clients. Avec les instances Inf1 basées sur AWS Inferentia, l'exécution de modèles de Rekognition tels que la classification d'objets, a permis de réduire de 8 fois la latence et de 2 fois le débit par rapport à l'exécution de ces modèles sur les GPU. Compte tenu de ces résultats, nous faisons basculer Rekognition vers Inf1, ce qui permettra à nos clients d'obtenir des résultats précis, plus rapidement. »
 
Rajneesh Singh, Directeur, SW Engineering, Rekognition et Video

Tarification

*Prix pour la région AWS USA Est (Virginie du Nord). Les tarifs pour 1 an et 3 ans des instances réservées correspondent aux options de paiement « Frais initiaux partiels » ou « Aucuns frais initiaux » pour les instances sans l'option Frais initiaux partiels.

Les instances Inf1 d'Amazon EC2 sont disponibles dans les régions AWS USA Est (Virginie du Nord) et USA Ouest (Oregon) sous la forme d'instances sur demande, réservées ou Spot.

Mise en route

Utilisation d'Amazon SageMaker

Amazon SageMaker facilite la compilation et le déploiement de votre modèle de machine learning entraîné en production sur des instances Amazon Inf1, afin que vous puissiez commencer à générer des prévisions en temps réel avec une faible latence. AWS Neuron, le compilateur pour AWS Inferentia, est intégré à Amazon SageMaker Neo, ce qui vous permet de compiler vos modèles de machine learning pour un fonctionnement optimal sur les instances Inf1. Votre modèle s'exécutera sur des clusters à scalabilité automatique d'instances Inf1 d'Amazon SageMaker réparties entre plusieurs zones de disponibilité pour offrir de hautes performances et une disponibilité élevée. Apprenez à déployer vers des instances Inf1 avec Amazon SageMaker à l'aide d'exemples sur Github.

Utilisation des AMI AWS Deep Learning

Les AMI AWS Deep Learning (DLAMI) fournissent aux chercheurs et aux professionnels du machine learning l'infrastructure et les outils nécessaires pour accélérer le machine learning dans le cloud, à n'importe quelle échelle. Le kit SDK d'AWS Neuron est préinstallé dans les AMI AWS Deep Learning, ce qui vous permet de compiler et d'exécuter vos modèles de machine learning de façon optimale sur les instances Inf1. Pour vous aider tout au long du processus de démarrage, vous pouvez consulter le guide de sélection des AMI ainsi que d'autres ressources de deep learning. Pour apprendre à utiliser les DLAMI avec Neuron, reportez-vous au guide de mise en route d'AWS DLAMI.

Utilisation de conteneurs AWS Deep Learning

Les développeurs peuvent désormais déployer des instances Inf1 dans Amazon Elastic Kubernetes Service (EKS), qui est un service Kubernetes entièrement géré, et dans Amazon Elastic Container Service (ECS), qui est un service d'orchestration de conteneur entièrement géré d'Amazon. En savoir plus sur la mise en route d'Inf1 sur Amazon EKS ou avec Amazon ECS. Plus de détails sur l'exécution de conteneurs sur des instances Inf1 sont disponibles sur la page du tutoriel des outils de conteneur Neuron. Neuron est également disponible préinstallé dans les AWS DL Containers.