Instances Inf1 d'Amazon EC2

Inférence machine learning haute performance et à moindre coût dans le cloud

Les entreprises de divers secteurs d'activité envisagent une transformation basée sur l'IA pour stimuler l'innovation commerciale et pour améliorer l'expérience client et les processus. Les modèles de Machine Learning qui alimentent les applications d'IA se complexifient, ce qui entraîne l'augmentation des coûts de l'infrastructure informatique sous-jacente. L'inférence représente souvent jusqu'à 90 % des dépenses d'infrastructure pour le développement et l'exécution d'applications ML. Les clients recherchent des solutions d'infrastructure rentables pour déployer leurs applications ML en production.

Les instances Inf1 d'Amazon EC2 offrent l'inférence ML haute performance la plus économique dans le cloud. Leur débit est jusqu'à 2,3 fois plus élevé et leur coût par inférence est jusqu'à 70 % inférieur à celui des instances Amazon EC2 comparables basées sur des GPU de génération actuelle. Les instances Inf1 sont créées de A à Z pour prendre en charge les applications d'inférence de machine learning. Elles comportent jusqu'à 16 puces AWS Inferentia ; il s'agit de puces d'inférence de Machine Learning haute performance conçues et fabriquées par AWS. En outre, elles sont dotées des processeurs Intel® Xeon® Scalable de 2e génération, et elles offrent une mise en réseau à un débit atteignant 100 Gbit/s pour une inférence haut débit.

Les clients qui utilisent les instances Inf1 peuvent exécuter, à moindre coût dans le cloud, des applications d'inférence de Machine Learning à grande échelle comme la recherche, les moteurs de recommandations, l'aide visuelle par ordinateur, la reconnaissance vocale, le traitement du langage naturel, la personnalisation et la détection des fraudes.

Les développeurs peuvent déployer leurs modèles de Machine Learning dans les instances Inf1 à l'aide du kit SDK AWS Neuron, qui est intégré dans les principaux frameworks de Machine Learning, tels que TensorFlow, PyTorch et MXNet. Ils peuvent continuer à utiliser les mêmes frameworks de ML qu'aujourd'hui et migrer les applications vers les instances Inf1 avec un minimum de modifications du code, sans être liés aux solutions d'un fournisseur.

Démarrez aisément avec des instances Inf1 à l'aide d'Amazon SageMaker, des AMI d'AWS Deep Learning préconfigurés avec le kit SDK Neuron ou en utilisant Amazon ECS ou Amazon EKS pour les applications ML conteneurisées.

Instances Inf1 Amazon EC2 | Amazon Web Services (1:23)

Avantages

Jusqu'à 70 % de réduction du coût par inférence

Grâce à Inf1, les développeurs peuvent réduire considérablement le coût de leurs déploiements de production de Machine Learning, avec le coût par inférence le plus bas du cloud. La combinaison du faible coût d'instance et du débit élevé des instances Inf1 permet un coût par inférence jusqu'à 70 % inférieur à celui des instances EC2 comparables basées sur des GPU de génération actuelle.

Simplicité d'utilisation et portabilité du code

Le kit SDK Neuron est intégré aux frameworks de Machine Learning courants, tels que TensorFlow, PyTorch et MXNet. Les développeurs peuvent continuer à utiliser les mêmes workflows de ML et migrer de manière transparente leur application vers les instances Inf1 avec des modifications minimales du code. Ils sont ainsi libres d'utiliser le framework de Machine Learning de leur choix, la plateforme informatique qui répond le mieux à leurs besoins, et de tirer parti des dernières technologies sans être liés à des solutions spécifiques à un fournisseur.

Débit jusqu'à 2,3 fois plus important

Les instances Inf1 offrent un débit jusqu'à 2,3 fois supérieur à celui des instances Amazon EC2 comparables basées sur des GPU de génération actuelle. Les puces AWS Inferentia qui alimentent les instances Inf1 sont optimisées pour les performances d'inférence des lots de petite taille, ce qui permet aux applications en temps réel de maximiser le débit et de répondre aux exigences de latence.

Temps de latence extrêmement faible

Les puces AWS Inferentia sont dotées d'une vaste mémoire intégrée permettant la mise en cache des modèles de Machine Learning directement sur la puce. Vous pouvez déployer vos modèles à l'aide de fonctionnalités, telles que le pipeline NeuronCore, qui vous évitent de devoir accéder à des ressources mémoire externes. Avec les instances Inf1, vous pouvez déployer des applications d'inférence en temps réel à des latences proches du temps réel sans incidence sur la bande passante.

Prise en charge d'un large éventail de modèles de Machine Learning et de types de données

Les instances Inf1 prennent en charge de nombreuses architectures de modèles de Machine Learning couramment utilisées, telles que SSD, VGG et ResNext, pour la reconnaissance/classification des images, ainsi que Transformer et BERT pour le traitement du langage naturel. En outre, la prise en charge du référentiel de modèles HuggingFace dans Neuron offre aux clients la possibilité de compiler et d'exécuter aisément l'inférence en utilisant les modèles pré-entraînés, voire des modèles personnalisés, en modifiant une seule ligne de code. Les types de données notamment BF16 et FP16 de précision mixte prennent également en charge un large éventail de modèles et de besoins de performances.

Fonctionnalités

À technologie AWS Inferentia

AWS Inferentia est une puce d'inférence de machine learning conçue par AWS pour offrir des inférences haute performance à faible coût. Chaque puce AWS Inferentia offre des performances allant jusqu'à 128 TOPS (tera-opérations par seconde) et prend en charge les données FP16, BF16 et INT8. Les puces AWS Inferentia disposent également d'une grande mémoire qui peut être utilisée pour la mise en cache de modèles conséquents, ce qui est particulièrement avantageux pour les modèles qui nécessitent un accès fréquent à la mémoire.

Le kit de développement logiciel (SDK) AWS Neuron comprend un compilateur, un pilote d'environnement d'exécution et des outils de profilage. Il permet de déployer des modèles de réseaux de neurones complexes, créés et formés dans des frameworks courants, tels que TensorFlow, PyTorch et MXNet, à l'aide des instances Inf1. Grâce au pipeline NeuronCore de Neuron, vous pouvez diviser de grands modèles à exécuter sur plusieurs puces Inferentia via une interconnexion physique haute vitesse, offrant un débit d'inférence élevé et des coûts réduits.

Mise en réseau et stockage hautes performances

Les instances Inf1 proposent jusqu'à 100 Gbits/s de débit réseau pour les applications nécessitant un accès à la mise en réseau à haut débit. L'adaptateur Elastic Network Adapter (ENA) et la technologie NVM Express (NVMe) de nouvelle génération fournissent des instances Inf1 avec des interfaces à faible latence et à débit élevé pour la mise en réseau et Amazon Elastic Block Store (Amazon EBS).

Basé sur le système AWS Nitro

Le système AWS Nitro est un ensemble étendu de composants qui décharge de nombreuses fonctions de virtualisation traditionnelles sur du matériel et des logiciels dédiés afin d'offrir des niveaux élevés de performances, de disponibilité et de sécurité, tout en réduisant les frais de virtualisation.

Fonctionnement

Mode d'emploi d'Inf1 et d'AWS Inferentia

Témoignages de clients

AirBnB

Fondée en 2008, Airbnb, basée à San Francisco, est une place de marché communautaire comptant plus de 4 millions d'hôtes qui ont accueilli plus de 900 millions d'arrivées d'invités dans presque tous les pays du monde.

« La plateforme de support communautaire d'Airbnb permet de proposer des expériences de service intelligentes, évolutives et exceptionnelles à notre communauté de millions d'hôtes et d'invités dans le monde. Nous recherchons constamment des moyens d'améliorer les performances de nos modèles de traitement du langage naturel que nos applications de chatbot de soutien utilisent. Avec les instances Inf1 Amazon EC2 à technologie AWS Inferentia , nous doublons immédiatement le débit par rapport aux instances basées sur les GPU pour nos modèles BERT basés sur PyTorch. Nous sommes impatients d'utiliser des instances Inf1 pour d'autres modèles et cas d'utilisation à l'avenir. »

Bo Zeng, responsable de l'ingénierie chez AirBnB

Snap Inc
« Nous intégrons le machine learning (ML) dans de nombreux aspects de Snapchat, et l'exploration de l'innovation dans ce domaine est une priorité essentielle. Dès que nous avons entendu parler d'Inferentia, nous avons commencé à collaborer avec AWS pour adopter des instances Inf1/Inferentia afin de nous aider dans le déploiement du ML, notamment en termes de performance et de coût. Nous avons commencé par nos modèles de recommandation, et nous sommes impatients d'adopter d'autres modèles avec les instances Inf1 à l'avenir. »

Nima Khajehnouri, VP Engineering chez Snap Inc.

Sprinklr
« La plateforme de gestion unifiée de l'expérience client (Unified-CXM) de Sprinklr, basée sur l'IA, permet aux entreprises de recueillir et de traduire les commentaires des clients en temps réel sur plusieurs canaux en informations exploitables, ce qui se traduit par une résolution proactive des problèmes, un développement de produits plus performant, un marketing de contenu plus efficace, un meilleur service client, etc. Grâce aux instance Inf1 Amazon EC2, nous avons pu améliorer de manière significative les performances de l'un de nos modèles de traitement du langage naturel (NLP), ainsi que les performances de l'un de nos modèles de reconnaissance d'image. Nous sommes impatients de continuer à utiliser les instances Inf1 Amazon EC2, afin de mieux servir nos clients internationaux. »

Vasant Srinivasan, VP principal de Product Engineering chez Sprinklr

Finch Computing
« Notre produit de traitement du langage naturel (NLP) ultramoderne, Finch for Text, permet aux utilisateurs d'extraire, de désambiguïser et d'enrichir de nombreux types d'entités dans d'importants volumes de texte. Finch for Text nécessite des ressources informatiques considérables pour fournir à nos clients des enrichissements à faible latence sur les flux de données mondiaux. Nous utilisons désormais les instances Inf1 Amazon dans nos modèles PyTorch NLP, de traduction ainsi que de désambiguïsation d'entités. Nous avons pu réduire de plus de 80 %nos coûts d'inférence (sur les instances basées sur le GPU) avec des optimisations minimales, tout en maintenant la vitesse et les performances des inférences. Grâce à cette amélioration permet, nos clients peuvent enrichir leur texte en français, en espagnol, en allemand et en néerlandais en temps réel sur des flux de streaming de données à l'échelle mondiale, une capacité essentielle pour nos services financiers, notre agrégateur de données et nos clients du secteur public. »

Scott Lightner, directeur technique (CTO) – Finch Computing

Autodesk
« Autodesk utilise Inferentia pour faire progresser la technologie cognitive d'Autodesk Virtual Agent (AVA), son assistant virtuel à technologie IA. AVA répond à plus de 100 000 questions de clients par mois en appliquant la compréhension du langage naturel (NLU) et des techniques de deep learning pour extraire le contexte, l'intention et la signification des demandes de renseignements. En pilotant Inferentia, nous sommes en mesure d'obtenir un débit 4,9 fois plus élevé que G4dn pour nos modèles NLU, et nous sommes impatients d'exécuter plus d'applications sur les instances Inf1 basées sur Inferentia."

Binghui Ouyang, responsable scientifique des données chez Autodesk

Screening Eagle
« L'utilisation de Ground Penetrating Radar et de la fonctionnalité de détection des défauts visuels fait généralement partie du domaine des géomètres experts. L'architecture basée sur les microservices AWS nous permet de traiter les vidéos prises par les véhicules d'inspection automatisée ainsi que par les inspecteurs. La migration de nos modèles internes des instances basées sur GPU traditionnelles vers Inferentia nous a permis de réduire les coûts à hauteur de 50 %. De plus, nous avons pu noter des gains de performances en comparant les temps de traitement avec ceux des instances GPU G4dn. Notre équipe a hâte d'exécuter davantage de charges de travail sur les instances Inf1 basées sur Inferentia. »

Jesús Hormigo, responsable du cloud et de l'IA, Screening Eagle Technologies

NTT PC

NTTPC Communications est un fournisseur de services de réseau et de solutions de communication au Japon. Il s'agit d'une société de télécommunications leader dans l'introduction de nouveaux produits innovants sur le marché des technologies de l'information et de la communication.

« NTTPC a développé « AnyMotion », un service de plateforme d'API d'analyse du mouvement basé sur des modèles avancés de machine learning d'estimation de la posture. NTTPC a déployé sa plateforme AnyMotion sur des instances Inf1 Amazon EC2 en utilisant Amazon Elastic Container Service (ECS) pour un service d'orchestration de conteneurs entièrement géré. En déployant ses conteneurs AnyMotion sur Amazon EC2 Inf1, NTTPC a multiplié par 4,5 le débit, réduit de 25 % la latence d'inférence et diminué de 90 % le coût par rapport à la génération actuelle d'instances EC2 basées sur des GPU. Ces meilleures performances permettront d'améliorer la qualité du service AnyMotion à grande échelle. »

Toshiki Yanagisawa, ingénieur logiciel chez NTT PC Communications Incorporated

Anthem

Anthem est l'une des principales sociétés de prestations de soins de santé du pays, répondant aux besoins en soins de santé de plus de 40 millions de membres dans des dizaines d'États. 

« Le marché des plateformes numériques de santé croît à un rythme remarquable. Recueillir des informations sur ce marché est une tâche difficile en raison de la grande quantité de données sur les opinions des clients et de sa nature non structurée. Notre application automatise la génération d'informations exploitables à partir des opinions des clients via des modèles de langage naturel de machine learning (Transformateurs). Notre application recours intensivement au calcul et doit être déployée de manière très performante. Nous avons déployé de manière transparente notre charge de travail d'inférence de machine learning sur des instances Inf1 d'Amazon EC2 optimisées par le processeur AWS Inferentia. Les nouvelles instances Inf1 offrent un débit deux fois plus élevé que celui des instances basées sur les GPU et nous ont permis de rationaliser nos applications d'inférence. »

Numan Laanait, PhD, IA principal/scientifique des données chez Anthem
Miro Mihaylov, PhD, IA principal/scientifique des données chez Anthem

Condé Nast
« Le portefeuille mondial de Condé Nast détient plus de 20 grandes marques médiatiques, dont Wired, Vogue et Vanity Fair. En quelques semaines, notre équipe a réussi à intégrer notre moteur de recommandation aux puces d’AWS Inferentia. Cette alliance permet de multiples optimisations pour l'exécution de modèles de langue naturels de dernière génération sur les instances Inf1 de SageMaker. En conséquence, nous avons réduit les coûts de 72 % par rapport aux instances GPU précédemment déployées. »

Paul Fryzel, ingénieur principal, infrastructure IA chez Condé Nast

Ciao
« Ciao fait évoluer les caméras de sécurité conventionnelles et en fait des caméras d’analyse haute performance, dont les capacités équivalent à celles de l’œil humain. Notre application permet d’améliorer la prévention des catastrophes, puisqu’elle offre un suivi des conditions environnementales grâce à des solutions de caméras IA basées sur le Cloud qui lancent un signal d’alerte avant qu’une situation ne dégénère jusqu’à devenir une catastrophe. Ces alertes permettent de réagir avant qu’il ne soit trop tard. En nous basant sur la détection d’objet, nous pouvons également fournir des informations en estimant, sans impliquer le personnel, le nombre de clients qui entrent, à partir de vidéos dans des magasins physiques. Sur le plan commercial, Ciao Camera a adopté des instances Inf1 basées sur AWS Inferentia, qui offrent un rapport qualité/prix 40 % plus intéressant que G4dn avec YOLOv4. Nous nous réjouissons de pouvoir proposer davantage de services avec les instances Inf1 en tirant parti de leur grande rentabilité. »

Shinji Matsumoto, ingénieur logiciel chez Ciao Inc.

Asahi Shimbun
« L'Asahi Shimbun est l'un des quotidiens les plus populaires du Japon. Media Lab, qui s'est établi comme l'un des départements de notre entreprise, a pour missions d'étudier les dernières technologies, en particulier l'IA, ainsi que de relier les technologies de pointe pour les nouvelles entreprises. Suite au lancement des instances Amazon EC2 Inf1, basées sur AWS Inferentia, à Tokyo, nous avons testé notre application d'IA de synthèse de texte, basée sur PyTorch, sur ces instances. Cette application traite une quantité importante de texte et génère des titres ainsi que des phrases de résumé inspirées d'articles de ces 30 dernières années. À l'aide d'Inferentia, nous avons considérablement réduit les coûts liés aux instances basées sur les processeurs. Cette réduction spectaculaire des coûts nous permettra de déployer nos modèles les plus complexes à grande échelle, ce qui, selon nous, n'était pas économiquement faisable ».

Hideaki Tamori, PhD, administrateur principal, Media Lab - The Asahi Shimbun Company

CS Disco
« CS Disco réinvente les technologies juridiques en tant que principal fournisseur de solutions d'IA pour la découverte électronique, développées par des avocats, pour les avocats. Disco AI permet d’accélérer cette tâche ingrate qui consiste à passer au crible des téraoctets de données, réduisant les délais d’examen pour une meilleure précision. Elle tire parti de modèles complexes de traitement du langage naturel, dont le calcul et le coût sont prohibitifs. Disco a découvert que les instances Inf1 basées sur AWS Inferentia permettaient de réduire les coûts d'inférence dans Disco AI d'au moins 35 % par rapport aux instances GPU actuelles. Sur la base de cette expérience positive avec les instances Inf1, CS Disco va explorer les possibilités de migration vers Inferentia. »

Alan Lockett, directeur principal de la recherche chez CS Disco

Talroo
« Chez Talroo, nous offrons à nos clients une plateforme guidée par les données qui leur permet d'attirer et de recruter des candidats uniques. Nous recherchons sans cesse de nouvelles technologies pour nous assurer que nous offrons les meilleurs produits et services à nos clients. À l'aide d'Inferentia, nous extrayons des informations à partir d'un corpus de données de texte, afin d'améliorer notre technologie de recherche et de correspondance alimentée par l'IA. Talroo tire parti des instances Amazon EC2 Inf1 afin de créer des modèles de compréhension du langage naturel à haut débit avec SageMaker. Les premiers essais réalisés par Talroo montrent que les instances Amazon EC2 Inf1 offrent une latence d'inférence 40 % inférieure et un débit deux fois supérieur par rapport aux instances GPU G4dn. Sur la base de ces résultats, Talroo est impatient d'utiliser les instances Inf1 Amazon EC2 dans le cadre de son infrastructure AWS. »

Janet Hu, ingénieure logiciel - Talroo

Digital Media Professionals (DMP)
« Digital Media Professionals (DMP) visualise l'avenir avec une plateforme ZIA™ basée sur l'IA (intelligence artificielle). Les technologies efficaces de classification par vision par ordinateur de DMP sont utilisées pour obtenir des informations sur une grande quantité de données d'image en temps réel, telles que l'observation des conditions, la prévention du crime et la prévention des accidents. Nous avons constaté que nos modèles de segmentation d'images s'exécutent quatre fois plus vite sur les instances Inf1 basées sur AWS Inferentia que sur les instances G4 basées sur GPU. Grâce à ce débit plus élevé et à ce coût plus faible, Inferentia nous permet de déployer à grande échelle nos applications d'IA, telles que les applications pour les caméras embarquées de voiture à grande échelle. »

Hiroyuki Umeda, directeur et directeur général de Sales & Marketing Group chez Digital Media Professionals

Hotpot.ai

Hotpot.ai X permet aux non concepteurs de créer des graphiques attrayants et aide les concepteurs professionnels à automatiser les tâches routinières. 

« Le machine learning étant au cœur de notre stratégie, nous étions ravis d'essayer les instances Inf1 AWS Inferentia. Nous avons trouvé les instances Inf1 faciles à intégrer dans notre pipeline de recherche et développement. Mais surtout, nous avons observé des gains de performance impressionnants par rapport aux instances basées sur le GPU G4dn. Avec notre premier modèle, les instances Inf1 ont permis d'augmenter le débit d'environ 45 % et de réduire le coût par inférence de près de 50 %. Nous avons l'intention de travailler en étroite collaboration avec l'équipe AWS pour porter d'autres modèles et transférer la majeure partie de notre infrastructure d'inférence ML vers AWS Inferentia. »

Clarence Hu, fondateur de Hotpot.ai

SkyWatch
« SkyWatch traite des centaines de milliards de pixels de données d'observation de la Terre qui sont capturées quotidiennement dans l'espace. L'adoption des nouvelles instance Inf1 AWS Inferentia qui utilisent Amazon SageMaker pour la détection des nuages et la notation de la qualité des images en temps réel a été simple et rapide. Il nous a suffi de modifier le type d'instance dans notre configuration de déploiement. En passant aux instances Inferentia Inf1, nous avons amélioré les performances de 40 % et réduit les coûts de 23 %. C'est un véritable exploit. Nous avons pu réduire les coûts opérationnels tout en continuant à fournir des images satellite d'excellente qualité à nos clients, le tout sans coûts d'ingénierie exorbitants. Nous sommes impatients d'effectuer la transition de tous nos points de terminaison d'inférence et de nos processus ML par lots pour utiliser les instances Inf1, afin d'améliorer encore la fiabilité de nos données et l'expérience client. »

Adler Santos, responsable de l'ingénierie chez SkyWatch

Service Amazon utilisant les instances Inf1 Amazon EC2

Amazon Advertising

Amazon Advertising aide les entreprises de toutes tailles à entrer en contact avec leurs clients à chaque étape de leur processus d'achat. Des millions d'annonces, y compris du texte et des images, sont modérées, classées et diffusées pour une expérience client optimale chaque jour.

« Pour le traitement de nos annonces textuelles, nous déployons des modèles BERT basés sur PyTorch dans le monde entier sur des instances Inf1 basées sur AWS Inferentia. En passant des GPU à Inferentia, nous avons pu réduire nos coûts de 69 % en maintenant des performances comparables. La compilation et les tests de nos modèles pour AWS Inferentia ont duré moins de trois semaines. L'utilisation d'Amazon SageMaker pour déployer nos modèles sur des instances Inf1 a garanti que notre déploiement était évolutif et facile à gérer. Lorsque j'ai analysé pour la première fois les modèles compilés, les performances avec AWS Inferentia étaient si impressionnantes que j'ai dû exécuter à nouveau les tests de performance pour m'assurer qu'ils étaient corrects ! À l'avenir, nous prévoyons de migrer nos modèles de traitement d'annonces illustrées vers Inferentia. Nous avons déjà évalué une latence inférieure de 30 % et des économies de coûts de 71 % par rapport à des instances comparables basées sur GPU pour ces modèles. »

Yashal Kanungo, spécialiste en sciences appliquées, Amazon Advertising

Lire l'article du blog des actualités »

Amazon Alexa
« L'intelligence basée sur l'IA et le ML d'Amazon Alexa, à technologie Amazon Web Services, est désormais disponible sur plus de 100 millions d'appareils. Nous nous sommes engagés à rendre Alexa encore plus intelligent, plus communicatif, plus proactif et encore plus convivial. Pour tenir cette promesse, nous devons continuer à réduire les temps de réponse et les coûts d'infrastructure de machine learning. Nous sommes donc extrêmement impatients d'utiliser les instances Inf1 Amazon EC2 pour réduire la latence d'inférence et le coût par inférence de la synthèse vocale Alexa. Avec Amazon EC2 Inf1, nous pourrons perfectionner le service rendu aux dizaines de millions de clients qui utilisent Alexa chaque mois. »

Tom Taylor, vice-président senior, Amazon Alexa

« Nous innovons sans cesse pour améliorer davantage notre expérience client et réduire nos coûts d'infrastructure. Déplacer nos applications WBQA (réponse aux questions basée sur le web) des instances P3 GPU vers des instances Inf1 basées sur AWS Inferentia nous a non seulement permis de réduire de 60 % les coûts d'inférence, mais aussi d'accroître de plus de 40 % la latence de bout en bout, améliorant ainsi l'expérience client en termes de questions-réponses avec Alexa. L'utilisation d'Amazon SageMaker pour notre modèle basé sur Tensorflow a permis de rendre le processus de commutation vers les instances Inf1 rapide et simple à gérer. Nous utilisons désormais les instances Inf1 à travers le monde pour exécuter les charges de travail WBQA, et nous optimisons leurs performances pour AWS Inferentia afin de réduire davantage les coûts et la latence. »

Eric Lind, ingénieur de développement logiciel, Alexa AI

Amazon Alexa
« Amazon Prime Video s'appuie sur les modèles ML de vision par ordinateur pour analyser la qualité vidéo des événements en direct afin de garantir une expérience utilisateur optimale pour les membres de Prime Video. Nous avons déployé nos modèles ML de classification d'images sur les instances EC2 Inf1 et avons pu noter un quadruplement des performances et jusqu'à 40 % d'économies de coûts. Nous entendons maintenant utiliser ces économies de coûts pour innover et créer des modèles avancés capables de détecter des défauts plus complexes, par exemple les lacunes de synchronisation entre les fichiers audio et les fichiers vidéo, afin d'améliorer davantage l'expérience de visionnement pour les membres Prime Video. »
 
Victor Antonino, architecte de solutions, Amazon Prime Video
Amazon Alexa
« Amazon Rekognition est une application simple et facile d'analyse d'images et de vidéos qui aide les clients à identifier des objets, des personnes, du texte et des activités. Amazon Rekognition nécessite une infrastructure de deep learning hautement performante, capable d'analyser quotidiennement des milliards d'images et de vidéos pour nos clients. Avec les instances Inf1 basées sur AWS Inferentia, l'exécution de modèles de Rekognition tels que la classification d'objets, a permis de réduire de 8 fois la latence et de 2 fois le débit par rapport à l'exécution de ces modèles sur les GPU. Compte tenu de ces résultats, nous basculons Rekognition vers Inf1, ce qui permettra à nos clients d'obtenir des résultats précis, plus rapidement. »
 
Rajneesh Singh, Directeur, SW Engineering, Rekognition et Video

Tarification

*Prix pour la région AWS USA Est (Virginie du Nord). Les tarifs pour 1 an et 3 ans des instances réservées correspondent aux options de paiement « Frais initiaux partiels » ou « Aucuns frais initiaux » pour les instances sans l'option Frais initiaux partiels.

Les instances Inf1 d'Amazon EC2 sont disponibles dans les régions AWS USA Est (Virginie du Nord) et USA Ouest (Oregon) sous la forme d'instances sur demande, réservées ou Spot.

Mise en route

Utilisation d'Amazon SageMaker

Amazon SageMaker facilite la compilation et le déploiement de votre modèle de machine learning entraîné en production sur des instances Amazon Inf1, afin que vous puissiez commencer à générer des prévisions en temps réel avec une faible latence. AWS Neuron, le compilateur pour AWS Inferentia, est intégré à Amazon SageMaker Neo, ce qui vous permet de compiler vos modèles de machine learning pour un fonctionnement optimal sur les instances Inf1. Votre modèle s'exécutera sur des clusters à scalabilité automatique d'instances Inf1 d'Amazon SageMaker réparties entre plusieurs zones de disponibilité pour offrir de hautes performances et une disponibilité élevée. Apprenez à déployer vers des instances Inf1 avec Amazon SageMaker à l'aide d'exemples sur Github.

Utilisation des AMI AWS Deep Learning

Les AMI AWS Deep Learning (DLAMI) fournissent aux chercheurs et aux professionnels du machine learning l'infrastructure et les outils nécessaires pour accélérer le machine learning dans le cloud, à n'importe quelle échelle. Le kit SDK d'AWS Neuron est préinstallé dans les AMI AWS Deep Learning, ce qui vous permet de compiler et d'exécuter vos modèles de machine learning de façon optimale sur les instances Inf1. Pour vous aider tout au long du processus de démarrage, vous pouvez consulter le guide de sélection des AMI ainsi que d'autres ressources de deep learning. Pour apprendre à utiliser les DLAMI avec Neuron, reportez-vous au guide de mise en route d'AWS DLAMI.

Utilisation de conteneurs AWS Deep Learning

Les développeurs peuvent désormais déployer des instances Inf1 dans Amazon Elastic Kubernetes Service (EKS), qui est un service Kubernetes entièrement géré, et dans Amazon Elastic Container Service (ECS), qui est un service d'orchestration de conteneur entièrement géré d'Amazon. En savoir plus sur la mise en route d'Inf1 sur Amazon EKS ou avec Amazon ECS. Plus de détails sur l'exécution de conteneurs sur des instances Inf1 sont disponibles sur la page du tutoriel des outils de conteneur Neuron. Neuron est également disponible préinstallé dans les AWS DL Containers.

Blogs et articles