- Produits›
- Machine learning›
- AWS Inferentia
AWS Inferentia
Obtenez de hautes performances à moindre coût dans Amazon EC2 pour l’inférence en deep learning et en IA générative
Pourquoi choisir Inferentia ?
Les puces AWS Inferentia, conçues par AWS, offrent des performances élevées au coût le plus bas dans Amazon EC2 pour vos applications d’inférence en deep learning (DL) et en IA générative.
La puce AWS Inferentia de première génération alimente les instances d’Amazon Elastic Compute Cloud (Amazon EC2) Inf1, qui offrent un débit de 2,3 fois supérieur et un coût par inférence de 70 % inférieur à celui des instances Amazon EC2 comparables. De nombreux clients, dont Finch AI, Sprinklr, Money Forward et Amazon Alexa, ont adopté les instances Inf1 et tirent pleinement parti de leurs avantages en matière de performances et de réduction des coûts.
La puce AWS Inferentia2 offre un débit jusqu’à quatre fois supérieur et une latence jusqu’à dix fois inférieure à celle d’Inferentia. Les instances Amazon EC2 Inf2 basées sur Inferentia2 sont optimisées pour déployer des modèles de plus en plus complexes, tels que les grands modèles de langage (LLM) et les modèles de diffusion latente, à grande échelle. Les instances Inf2 sont les premières instances optimisées pour l’inférence dans Amazon EC2 à offrir une prise en charge de l’inférence distribuée à grande échelle, grâce à une connectivité ultra‑rapide entre les puces. De nombreux clients, dont Leonardo.ai, Deutsche Telekom et Qualtrics, ont adopté les instances Inf2 pour leurs applications de DL et d’IA générative.
AWS Neuron SDK permet aux développeurs de déployer des modèles sur les puces AWS Inferentia (et de les entraîner sur les puces AWS Trainium). Il s’intègre nativement aux frameworks les plus répandus, tels que PyTorch et TensorFlow, vous permettant ainsi de conserver vos codes et flux de travail existants tout en les exécutant sur les puces Inferentia.
Avantages d’AWS Inferentia
Chaque puce Inferentia de première génération possède 4 NeuronCores de première génération, et chaque instance EC2 Inf1 possède jusqu’à 16 puces Inferentia. Chaque puce Inferentia2 possède 2 NeuronCores de deuxième génération et chaque instance EC2 Inf2 possède jusqu’à 12 puces Inferentia2. Chaque puce Inferentia2 offre une puissance de calcul pouvant atteindre 190 téra‑opérations en virgule flottante par seconde (TFLOPS) en précision FP16. La puce Inferentia de première génération possède 8 Go de mémoire DDR4 par puce et dispose également d’une grande quantité de mémoire sur puce. Chaque puce Inferentia2 est dotée de 32 Go de mémoire HBM, multipliant par 4 la capacité totale et offrant une bande passante mémoire jusqu’à 10 fois supérieure à celle d’Inferentia.
AWS Neuron SDK s’intègre nativement aux frameworks de ML les plus répandus, tels que PyTorch et TensorFlow. Avec AWS Neuron, vous pouvez utiliser ces frameworks pour déployer de manière optimale des modèles de DL sur les puces AWS Inferentia. De plus, Neuron est conçu pour limiter les modifications de code et éviter toute dépendance à des solutions propriétaires. Neuron vous aide à exécuter vos applications d’inférence pour la compréhension/le traitement du langage naturel (NLP), la traduction linguistique, la synthétisation de texte, la génération de vidéos et d’images, la reconnaissance vocale, la personnalisation, la détection des fraudes et bien plus encore, le tout sur les puces Inferentia.
La puce Inferentia de première génération prend en charge les types de données FP16, BF16 et INT8. Inferentia2 ajoute un support supplémentaire pour FP32, TF32, et le nouveau type de données configurable FP8 (cFP8) pour fournir aux développeurs plus de flexibilité afin d'optimiser la performance et la précision. AWS Neuron prend des modèles FP32 de haute précision et les convertit automatiquement en types de données de moindre précision, tout en optimisant la précision et les performances. L’autocasting réduit le délai de mise sur le marché en éliminant le besoin d’un nouvel entraînement de moindre précision.
Inferentia2 intègre des optimisations matérielles pour les tailles d’entrée dynamiques ainsi que pour les opérateurs personnalisés développés en C++. Inferentia2 prend également en charge l’arrondi stochastique, une méthode de probabilisation de l’arrondi qui permet d’atteindre à la fois de meilleures performances et une plus grande précision par rapport aux modes d’arrondi traditionnels.
Les instances Inf2 offrent jusqu’à 50 % plus de performance par watt que les instances Amazon EC2 comparables, grâce à leur conception spécifique et aux puces Inferentia2 sous‑jacentes, optimisées pour exécuter des modèles de deep learning à grande échelle. Les instances Inf2 vous aident à atteindre vos objectifs de durabilité lors du déploiement de modèles de très grande taille.
Karakuri
Découvrez comment Karakuri fournit une IA performante tout en contrôlant les coûts grâce à AWS Inferentia
Metagenomi
Découvrez comment Metagenomi a réduit les coûts de conception de protéines à grande échelle jusqu’à 56 % grâce à AWS Inferentia
NetoAI
Découvrez comment NetoAI a atteint une latence d’inférence de 300 à 600 ms à l’aide d’AWS Inferentia2
Tomofun
Découvrez comment Tomofun a réduit les coûts de déploiement de l’inférence BLIP de 83 % en migrant vers AWS Inferentia
SplashMusic
Découvrez comment SplashMusic a réduit la latence d’inférence en
jusqu’à 10 fois avec AWS Inferentia
Leonardo.ai
Notre équipe de Leonardo exploite l’IA générative pour permettre aux professionnels de la création et aux passionnés de créer des ressources visuelles d’une qualité, d’une rapidité et d’une cohérence de style inégalées. Grâce à AWS Inferentia2, nous sommes en mesure de réduire nos coûts de 80 %, sans sacrifier les performances, en modifiant fondamentalement la proposition de valeur que nous pouvons proposer à nos clients, en activant nos caractéristiques les plus avancées à un prix plus accessible. Cela atténue également les inquiétudes concernant les coûts et la disponibilité des capacités pour nos services d’IA auxiliaires, qui revêtent une importance croissante à mesure que nous grandissons et évoluons. Il s’agit d’une technologie clé qui nous permet de continuer à repousser les limites de ce qui est possible avec l’IA générative et d’accéder à une nouvelle ère de créativité et de pouvoir d’expression au profit de nos utilisateurs.
Pete Werner, responsable du service d’IA, Leonardo.ai
Qualtrics
Qualtrics crée et développe des logiciels de gestion de l’expérience.
Chez Qualtrics, notre objectif est de créer une technologie qui comble les manques d’expérience pour les clients, les employés, les marques ainsi que les produits. Pour y parvenir, nous développons des modèles complexes de deep learning multi-tâches et multimodaux pour lancer de nouvelles fonctionnalités, telles que la classification de textes, le marquage de séquences, l’analyse de discours, l’extraction de phrases clés et de sujets, la mise en cluster et la compréhension de conversations de bout en bout. Au fur et à mesure que nous utilisons ces modèles plus complexes dans un plus grand nombre d’applications, le volume de données non structurées augmente, et nous avons besoin de solutions optimisées pour l’inférence plus performantes qui peuvent répondre à ces demandes, telles que les instances Inf2, pour offrir les meilleures expériences possible à nos clients. Nous sommes ravis des nouvelles instances Inf2, car elles nous permettront non seulement d’atteindre des débits plus élevés, tout en réduisant considérablement la latence, mais elles introduisent également des fonctionnalités telles que l’inférence distribuée et la prise en charge améliorée de la forme dynamique des entrées, qui nous aideront à la mise à l’échelle pour répondre aux besoins de déploiement à mesure que nous nous dirigeons vers des modèles de plus en plus grands et complexes.
Aaron Colak, Responsable Machine Learning principal, Qualtrics
Finch Computing
Finch Computing est une entreprise de technologie du langage naturel qui fournit des applications d’intelligence artificielle aux gouvernements, aux services financiers et aux intégrateurs de données.
Pour répondre aux besoins de nos clients en matière de NLP en temps réel, nous développons des modèles DL de pointe qui mettent à l’échelle de grandes charges de travail de production. Nous devons fournir des transactions à faible latence et atteindre des débits élevés pour traiter les flux de données internationaux. Nous avons déjà migré de nombreuses charges de travail de production vers des instances Inf1 et obtenu une réduction de 80 % du coût par rapport aux GPU. Aujourd'hui, nous développons des modèles plus importants et plus complexes qui permettent de développer un sens plus profond et plus pertinent à partir d'un texte écrit. Nombreux sont nos clients qui doivent avoir accès à ces informations en temps réel et les performances des instances Inf2 nous aideront à réduire la latence et à augmenter le débit en comparaison aux instances Inf1. Grâce aux améliorations des performances Inf2 et aux nouvelles fonctionnalités Inf2, telles que la prise en charge des formats d’entrée dynamiques, nous améliorons notre rentabilité, augmentons l’expérience client en temps réel et aidons nos clients à tirer de nouvelles conclusions de leurs données.
Franz Weckesser, Architecte principal, Finch Computing
Dataminr
Nous alertons sur de nombreux types d’événements dans le monde entier dans de nombreuses langues, sous différents formats (images, vidéo, audio, capteurs de texte, combinaisons de tous ces types) à partir de centaines de milliers de sources. L’optimisation de la vitesse et des coûts étant donné que l’échelle est absolument essentielle pour notre entreprise. Avec AWS Inferentia, nous avons réduit la latence des modèles et atteint un débit jusqu’à neuf fois supérieur par dollar. Cela nous a permis d’augmenter la précision des modèles et d’accroître les capacités de notre plateforme en déployant des modèles DL plus sophistiqués et en traitant cinq fois plus de volume de données tout en maîtrisant nos coûts.
Alex Jaimes, scientifique en chef et vice-président senior de l’IA, Dataminr
Snap Inc.
Nous intégrons le ML dans de nombreux aspects de Snapchat, et l’exploration de l’innovation dans ce domaine est une priorité essentielle. Dès que nous avons entendu parler d’Inferentia, nous avons commencé à collaborer avec AWS pour adopter des instances Inf1/Inferentia afin de nous aider dans le déploiement du ML, notamment en termes de performance et de coût. Nous avons commencé par nos modèles de recommandation, et sommes impatients d’adopter d’autres modèles avec les instances Inf1 à l’avenir.
Nima Khajehnouri, vice-président responsable de l’ingénierie, Snap Inc.
Sprinklr
La plateforme de gestion unifiée de l’expérience client (Unified-CXM) de Sprinklr, basée sur l’IA, permet aux entreprises de recueillir et de traduire les commentaires des clients en temps réel sur plusieurs canaux en informations exploitables, ce qui se traduit par une résolution proactive des problèmes, un développement de produits plus performant, un marketing de contenu plus efficace, un meilleur service client, etc. Grâce aux instance Inf1 Amazon EC2, nous avons pu améliorer de manière significative les performances de l’un de nos modèles de traitement du langage naturel (NLP), ainsi que les performances de l’un de nos modèles de reconnaissance d’image. Nous sommes impatients de continuer à utiliser les instances Amazon EC2 Inf1, afin de mieux servir nos clients internationaux.
Vasant Srinivasan, vice-président principal responsable de l’ingénierie des produits, Sprinklr
Autodesk
Autodesk fait progresser la technologie cognitive de son assistant virtuel optimisé par l’IA, Autodesk Virtual Agent (AVA), en utilisant Inferentia. AVA répond à plus de 100 000 questions de clients par mois en appliquant la compréhension du langage naturel (NLU) et des techniques de deep learning pour extraire le contexte, l’intention et la signification des demandes de renseignements. En pilotant Inferentia, nous sommes en mesure d’obtenir un débit 4,9 fois supérieur à celui de G4dn pour nos modèles NLU, et nous sommes impatients d’exécuter d’autres charges de travail sur les instances Inf1 basées sur Inferentia.
Binghui Ouyang, Sr. Scientifique des données, Autodesk
Screening Eagle Technologies
L’utilisation d’un géoradar et la détection de défauts visuels sont généralement du domaine des géomètres-experts. L’architecture basée sur les microservices AWS nous permet de traiter les vidéos prises par les véhicules d’inspection automatisée ainsi que par les inspecteurs. La migration de nos modèles internes des instances basées sur GPU traditionnelles vers Inferentia nous a permis de réduire les coûts à hauteur de 50 %. De plus, nous avons pu noter des gains de performances en comparant les temps de traitement avec ceux des instances GPU G4dn. Notre équipe a hâte d’exécuter davantage de charges de travail sur les instances Inf1 basées sur Inferentia.
Jesús Hormigo, responsable du cloud et de l’IA, Screening Eagle Technologies
NTT PC Communications Inc.
NTT PC Communications est un fournisseur de services de réseau et de solutions de communication au Japon. Il s’agit d’une société de télécommunications leader dans l’introduction de nouveaux produits innovants sur le marché des technologies de l’information et de la communication.
NTT PC a développé AnyMotion, un service de plateforme d’API d’analyse du mouvement basé sur des modèles avancés de machine learning d’estimation de la posture. Nous avons déployé notre plateforme AnyMotion sur des instances Amazon EC2 Inf1 à l’aide d’Amazon ECS pour un service d’orchestration de conteneurs entièrement géré. nous avons constaté une augmentation de 4,5 fois, une latence d’inférence réduite de 25 % et un coût réduit de 90 % par rapport aux instances EC2 basées sur le GPU de la génération actuelle. Ces meilleures performances permettront d’améliorer la qualité du service AnyMotion à grande échelle.
Toshiki Yanagisawa, ingénieur logiciel chez NTT PC Communications Incorporated
Anthem
Anthem est l’une des principales sociétés de prestations de soins de santé du pays, répondant aux besoins en soins de santé de plus de 40 millions de membres dans des dizaines d’États.
Le marché des plateformes numériques de santé croît à un rythme remarquable. Recueillir des informations sur ce marché est une tâche difficile en raison de la grande quantité de données sur les opinions des clients et de sa nature non structurée. Notre application automatise la génération d'informations exploitables à partir des opinions des clients via des modèles de langage naturel de deep learning (Transformateurs). Notre application recours intensivement au calcul et doit être déployée de manière très performante. Nous avons déployé de manière transparente notre charge de travail d’inférence de deep learning sur des instances Inf1 d’Amazon EC2 optimisées par le processeur AWS Inferentia. Les nouvelles instances Inf1 offrent un débit deux fois plus élevé que celui des instances basées sur les GPU et nous ont permis de rationaliser nos charges de travail d’inférence.
Numan Laanait et Miro Mihaylov, docteurs en chef, chercheurs principaux en intelligence artificielle et en données, Anthem