AWS Inferentia
Les accélérateurs AWS Inferentia sont conçus par AWS pour offrir de hautes performances à moindre coût pour vos applications d'inférence de deep learning (DL).
L'accélérateur AWS Inferentia de première génération alimente les instances Inf1 Amazon Elastic Compute Cloud (Amazon EC2), ce qui offre un débit jusqu'à 2,3 fois plus élevé et un coût par inférence jusqu'à 70 % plus bas par rapport à celui des instances Amazon EC2 comparables. De nombreux clients, dont Airbnb, Snap, Sprinklr, Money Forward et Amazon Alexa, ont adopté les instances Inf1 et réalisé ses avantages en termes de performances et de coûts.
L'accélérateur AWS Inferentia2 constitue une avancée majeure en matière de performances et de capacités par rapport aux processeurs AWS Inferentia de première génération. Inferentia2 offre un débit jusqu'à 4 fois plus élevé et une latence jusqu'à 10 fois plus basse par rapport à Inferentia. Les instances Inf2 Amazon EC2 basées sur Inferentia2 sont conçues pour offrir de hautes performances à moindre coût dans Amazon EC2 pour vos applications d'inférence de DL et d'intelligence artificielle (IA) générative. Ils sont optimisés pour déployer à l'échelle des modèles de plus en plus complexes, tels que les grands modèles de langage (LLM) et les transformateurs de vision. Les instances Inf2 sont les premières instances optimisées pour l'inférence dans Amazon EC2 à prendre en charge l'inférence distribuée à grande échelle avec une connectivité à ultra haute vitesse entre les accélérateurs. Vous pouvez désormais déployer de manière efficace et rentable des modèles comportant des centaines de milliards de paramètres sur plusieurs accélérateurs sur des instances Inf2.
AWS Neuron est le SDK qui aide les développeurs à déployer des modèles sur les deux accélérateurs AWS Inferentia et à exécuter vos applications d'inférence pour la compréhension/le traitement du langage naturel (NLP), la traduction des langues, la génération de vidéos et d'images, la reconnaissance vocale, la personnalisation, la détection des fraudes, etc. Il s'intègre nativement avec les frameworks de machine learning (ML) les plus utilisés, tels que PyTorch et TensorFlow, de sorte que vous pouvez continuer à utiliser vos flux de travail existants et à les exécuter sur les accélérateurs Inferentia avec seulement quelques lignes de code.
Avantages
Hautes performances et débit
Chaque accélérateur Inferentia de première génération comporte quatre NeuronCores de première génération, avec un maximum de 16 accélérateurs Inferentia par instance Inf1 EC2. Chaque accélérateur Inferentia2 dispose de deux NeuronCores de deuxième génération, avec un maximum de 12 accélérateurs Inferentia2 par instance Inf2 EC2. Inferentia2 offre un débit jusqu'à 4 fois supérieur et des performances de calcul 3 fois supérieures à celles d'Inferentia. Chaque accélérateur Inferentia2 supporte jusqu'à 190 tera opérations flottantes par seconde (teraFLOPS) de performance FP16.
Faible latence avec une mémoire à large bande passante
L'Inferentia de première génération possède 8 Go de mémoire DDR4 par accélérateur et dispose également d'une grande quantité de mémoire sur puce. Inferentia2 offre 32 Go de HBM par accélérateur, ce qui augmente la mémoire totale de 4 fois et la bande passante mémoire de 10 fois par rapport à Inferentia.
Prise en charge native des frameworks de ML
AWS Neuron SDK s'intègre nativement aux frameworks ML les plus utilisés, tels que PyTorch et TensorFlow. Avec AWS Neuron, vous pouvez utiliser ces frameworks pour déployer de manière optimale des modèles de DL sur les deux accélérateurs AWS Inferentia avec des modifications minimales du code et sans lien avec des solutions spécifiques aux fournisseurs.
Large éventail de types de données avec conversion automatique
Inferentia de première génération prend en charge les types de données FP16, BF16 et INT8. Inferentia2 ajoute un support supplémentaire pour FP32, TF32, et le nouveau type de données configurable FP8 (cFP8) pour fournir aux développeurs plus de flexibilité afin d'optimiser la performance et la précision. AWS Neuron prend des modèles FP32 de haute précision et les convertit automatiquement en types de données de moindre précision, tout en optimisant la précision et les performances. La conversion automatique réduit les délais de mise sur le marché en supprimant le besoin de reformation en basse précision.
Capacités DL de pointe
Inferentia2 ajoute des optimisations matérielles pour les formats d'entrée dynamiques et des opérateurs personnalisés écrits en C++. Il prend également en charge l'arrondi stochastique, un mode d'arrondi par probabilités qui permet d'obtenir des performances élevées et une plus grande précision par rapport aux modes d'arrondi traditionnels.
Conçu pour la durabilité
Les instances Inf2 offrent jusqu'à 50 % de performance/watt de plus que les instances Amazon EC2 comparables, car elles et les accélérateurs Inferentia2 sous-jacents sont spécialement conçus pour exécuter des modèles DL à grande échelle. Les instances Inf2 vous aident à atteindre vos objectifs de durabilité lors du déploiement de modèles ultra-larges.
Kit SDK AWS Neuron
AWS Neuron est le kit SDK qui aide les développeurs à déployer des modèles sur les deux accélérateurs AWS Inferentia et à les former sur l'accélérateur AWS Trainium. Il s'intègre nativement avec les frameworks de ML les plus utilisés, tels que PyTorch et TensorFlow, ainsi vous pouvez continuer à utiliser vos flux de travail existants et à les exécuter sur les accélérateurs Inferentia avec seulement quelques lignes de code.
AWS Trainium
AWS Trainium est un accélérateur de formation DL conçu par AWS qui offre une formation DL performante et rentable sur AWS. Les instances Trn1 Amazon EC2, alimentées par AWS Trainium, offrent les meilleures performances en matière de deep learning de modèles de traitement du langage naturel (NLP) utilisés sur AWS. Les instances Trn1 permettent d'économiser jusqu'à 50 % du coût de la formation par rapport à des instances Amazon EC2 comparables.
Témoignages de clients

Qualtrics crée et développe des logiciels de gestion de l'expérience.
« Chez Qualtrics, notre objectif est de créer une technologie qui comble les manques d'expérience pour les clients, les employés, les marques ainsi que les produits. Pour y parvenir, nous développons des modèles complexes de deep learning multi-tâches et multimodaux pour lancer de nouvelles fonctionnalités, telles que la classification de textes, le marquage de séquences, l'analyse de discours, l'extraction de phrases clés et de sujets, la mise en cluster et la compréhension de conversations de bout en bout. Au fur et à mesure que nous utilisons ces modèles plus complexes dans un plus grand nombre d'applications, le volume de données non structurées augmente, et nous avons besoin de solutions optimisées pour l'inférence plus performantes qui peuvent répondre à ces demandes, telles que les instances Inf2, pour offrir les meilleures expériences possible à nos clients. Nous sommes ravis des nouvelles instances Inf2, car elles nous permettront non seulement d'atteindre des débits plus élevés, tout en réduisant considérablement la latence, mais elles introduisent également des fonctionnalités telles que l'inférence distribuée et la prise en charge améliorée de la forme dynamique des entrées, qui nous aideront à la mise à l'échelle pour répondre aux besoins de déploiement à mesure que nous nous dirigeons vers des modèles de plus en plus grands et complexes. »
Aaron Colak, Responsable Machine Learning principal, Qualtrics

Finch Computing est une entreprise de technologie du langage naturel qui fournit des applications d'intelligence artificielle aux gouvernements, aux services financiers et aux intégrateurs de données.
« Pour répondre aux besoins de nos clients en matière de NLP en temps réel, nous développons des modèles DL de pointe qui mettent à l'échelle de grandes charges de travail de production. Nous devons fournir des transactions à faible latence et atteindre des débits élevés pour traiter les flux de données internationaux. Nous avons déjà migré de nombreuses charges de travail de production vers des instances Inf1 et obtenu une réduction de 80 % du coût par rapport aux GPU. Aujourd'hui, nous développons des modèles plus importants et plus complexes qui permettent de développer un sens plus profond et plus pertinent à partir d'un texte écrit. Nombreux sont nos clients qui doivent avoir accès à ces informations en temps réel et les performances des instances Inf2 nous aideront à réduire la latence et à augmenter le débit en comparaison aux instances Inf1. Grâce aux améliorations des performances Inf2 et aux nouvelles fonctionnalités Inf2, telles que la prise en charge des formats d'entrée dynamiques, nous améliorons notre rentabilité, augmentons l'expérience client en temps réel et aidons nos clients à tirer de nouvelles conclusions de leurs données. »
Franz Weckesser, Architecte principal, Finch Computing

« Nous alertons sur de nombreux types d'événements dans le monde entier dans de nombreuses langues, sous différents formats (images, vidéo, audio, capteurs de texte, combinaisons de tous ces types) à partir de centaines de milliers de sources. L'optimisation de la vitesse et des coûts étant donné que l'échelle est absolument essentielle pour notre entreprise. Avec AWS Inferentia, nous avons réduit la latence des modèles et atteint un débit jusqu'à 9 fois supérieur par dollar. Cela nous a permis d'augmenter la précision des modèles et d'accroître les capacités de notre plateforme en déployant des modèles DL plus sophistiqués et en traitant 5 fois plus de volume de données tout en maîtrisant nos coûts. »
Alex Jaimes, scientifique en chef et vice-président senior de l'IA, Dataminr

Fondée en 2008, Airbnb, basée à San Francisco, est une place de marché communautaire comptant plus de 4 millions d'hôtes qui ont accueilli plus de 900 millions d'arrivées d'invités dans presque tous les pays du monde.
« La plateforme de support communautaire d'Airbnb permet de proposer des expériences de service intelligentes, évolutives et exceptionnelles à notre communauté de millions d'hôtes et d'invités dans le monde. Nous recherchons constamment des moyens d'améliorer les performances de nos modèles de traitement du langage naturel utilisés par nos applications de chatbot d'assistance. Avec les instances Inf1 Amazon EC2 à technologie AWS Inferentia , nous doublons immédiatement le débit par rapport aux instances basées sur les GPU pour nos modèles BERT basés sur PyTorch. Nous sommes impatients d'utiliser des instances Inf1 pour d'autres modèles et cas d'utilisation à l'avenir. »
Bo Zeng, responsable de l'ingénierie chez Airbnb

« Nous intégrons le machine learning (ML) dans de nombreux aspects de Snapchat, et l'exploration de l'innovation dans ce domaine est une priorité essentielle. Dès que nous avons entendu parler d'Inferentia, nous avons commencé à collaborer avec AWS pour adopter des instances Inf1/Inferentia afin de nous aider dans le déploiement du ML, notamment en termes de performance et de coût. Nous avons commencé par nos modèles de recommandation, et sommes impatients d'adopter d'autres modèles avec les instances Inf1 à l'avenir. »
Nima Khajehnouri, vice-président responsable de l'ingénierie, Snap Inc.

« La plateforme de gestion unifiée de l'expérience client (Unified-CXM) de Sprinklr, basée sur l'IA, permet aux entreprises de recueillir et de traduire les commentaires des clients en temps réel sur plusieurs canaux en informations exploitables, ce qui se traduit par une résolution proactive des problèmes, un développement de produits plus performant, un marketing de contenu plus efficace, un meilleur service client, etc. Grâce aux instance Inf1 Amazon EC2, nous avons pu améliorer de manière significative les performances de l'un de nos modèles de traitement du langage naturel (NLP), ainsi que les performances de l'un de nos modèles de reconnaissance d'image. Nous sommes impatients de continuer à utiliser les instances Inf1 Amazon EC2, afin de mieux servir nos clients internationaux. »
Vasant Srinivasan, vice-président principal responsable de l'ingénierie des produits, Sprinklr

« Autodesk fait progresser la technologie cognitive de son assistant virtuel optimisé par l'IA, Autodesk Virtual Agent (AVA), en utilisant Inferentia. AVA répond à plus de 100 000 questions de clients par mois en appliquant la compréhension du langage naturel (NLU) et des techniques de deep learning pour extraire le contexte, l'intention et la signification des demandes de renseignements. En pilotant Inferentia, nous sommes en mesure d'obtenir un débit 4,9 fois supérieur à celui de G4dn pour nos modèles NLU, et nous sommes impatients d'exécuter d'autres charges de travail sur les instances Inf1 basées sur Inferentia. »
Binghui Ouyang, Sr. Scientifique des données, Autodesk
Services Amazon utilisant AWS Inferentia

Amazon Advertising aide les entreprises de toutes tailles à entrer en contact avec leurs clients à chaque étape de leur processus d'achat. Des millions d'annonces, y compris du texte et des images, sont modérées, classées et diffusées pour une expérience client optimale chaque jour.
« Pour le traitement de nos annonces textuelles, nous déployons des modèles BERT basés sur PyTorch dans le monde entier sur des instances Inf1 basées sur AWS Inferentia. En passant des GPU à Inferentia, nous avons pu réduire nos coûts de 69 % en maintenant des performances comparables. La compilation et les tests de nos modèles pour AWS Inferentia ont duré moins de trois semaines. L'utilisation d'Amazon SageMaker pour déployer nos modèles sur des instances Inf1 a garanti que notre déploiement était évolutif et facile à gérer. Lorsque j'ai analysé pour la première fois les modèles compilés, les performances avec AWS Inferentia étaient si impressionnantes que j'ai dû exécuter à nouveau les tests de performance pour m'assurer qu'ils étaient corrects ! À l'avenir, nous prévoyons de migrer nos modèles de traitement d'annonces illustrées vers Inferentia. Nous avons déjà évalué une latence inférieure de 30 % et des économies de coûts de 71 % par rapport à des instances comparables basées sur GPU pour ces modèles. »
Yashal Kanungo, spécialiste en sciences appliquées, Amazon Advertising
Lire l'article du blog des actualités »

« L'intelligence d'Amazon Alexa, basée sur l'IA et le ML et alimentée par Amazon Web Services, est disponible sur plus de 100 millions d'appareils aujourd'hui - et nous promettons à nos clients qu'Alexa deviendra toujours plus intelligente, plus conversationnelle, plus proactive et encore plus agréable. Pour tenir cette promesse, nous devons continuer à réduire les temps de réponse et les coûts d'infrastructure de machine learning. Nous sommes donc extrêmement impatients d'utiliser les instances Inf1 Amazon EC2 pour réduire la latence d'inférence et le coût par inférence de la synthèse vocale Alexa. Avec l’instance Inf1 Amazon EC2, nous pourrons perfectionner le service rendu aux dizaines de millions de clients qui utilisent Alexa chaque mois. »
Tom Taylor, vice-président senior, Amazon Alexa
« Nous innovons sans cesse pour améliorer davantage notre expérience client et réduire nos coûts d'infrastructure. Déplacer nos charges de travail WBQA (réponse aux questions basée sur le web) des instances P3 GPU vers des instances Inf1 basées sur AWS Inferentia nous a non seulement permis de réduire de 60 % les coûts d'inférence, mais aussi d'accroître de plus de 40 % la latence de bout en bout, améliorant ainsi l'expérience client en termes de questions-réponses avec Alexa. L'utilisation d'Amazon SageMaker pour notre modèle basé sur TensorFlow a permis de rendre le processus de commutation vers les instances Inf1 rapide et simple à gérer. Nous utilisons désormais les instances Inf1 à travers le monde pour exécuter les charges de travail WBQA, et nous optimisons leurs performances pour AWS Inferentia afin de réduire davantage les coûts et la latence. »
Eric Lind, ingénieur de développement logiciel, Alexa AI

« Amazon Prime Video s'appuie sur les modèles ML de vision par ordinateur pour analyser la qualité vidéo des événements en direct afin de garantir une expérience utilisateur optimale pour les membres de Prime Video. Nous avons déployé nos modèles ML de classification d'images sur les instances Inf1 EC2 et avons pu noter un quadruplement des performances et jusqu'à 40 % d'économies de coûts. Nous entendons maintenant utiliser ces économies de coûts pour innover et créer des modèles avancés capables de détecter des défauts plus complexes, par exemple les lacunes de synchronisation entre les fichiers audio et les fichiers vidéo, afin d'améliorer davantage l'expérience de visionnement pour les membres Prime Video. »
Victor Antonino, architecte de solutions, Amazon Prime Video

« Amazon Rekognition est une application simple et facile d'analyse d'images et de vidéos qui aide les clients à identifier des objets, des personnes, du texte et des activités. Amazon Rekognition nécessite une infrastructure de deep learning hautement performante, capable d'analyser quotidiennement des milliards d'images et de vidéos pour nos clients. Avec les instances Inf1 basées sur AWS Inferentia, l'exécution de modèles Amazon Rekognition tels que la classification d'objets, a permis de réduire de 8 fois la latence et de 2 fois le débit par rapport à l'exécution de ces modèles sur les GPU. Compte tenu de ces résultats, nous basculons Amazon Rekognition vers Inf1, ce qui permettra à nos clients d'obtenir des résultats précis, plus rapidement. »
Rajneesh Singh, Directeur, SW Engineering, Amazon Rekognition et Video
Articles et blogs
Patrick Moorhead, 13 mai 2020
James Hamilton, 28 novembre 2018
Vidéos
Ressources
- Apprenez à déployer vers des instances Inf1 à l'aide d'Amazon SageMaker avec des exemples Amazon SageMaker sur Github
- Mise en route avec AWS Neuron
- Caractéristiques de la feuille de route d'AWS Neuron
- Utiliser AWS Neuron depuis TensorFlow, PyTorch ou MXNet
- Consultez le forum des développeurs AWS Neuron afin d'obtenir de l'aide

Pour démarrer avec le machine learning, consultez la page Console de gestion AWS.