AWS Inferentia

Puce d'inférence machine learning hautes performances, spécialement conçue par AWS

La demande d'accélération de deep learning augmente à un rythme effréné et dans un large éventail d'applications. Les applications telles que les recommandations de recherche personnalisées, la tarification dynamique ou le service clientèle automatisé gagnent en sophistication et deviennent plus onéreuses à exécuter en production. Comme de plus en plus d'applications intègrent des capacités de machine learning, de nombreuses charges de travail ont besoin d'accélération, y compris celles qui nécessitent des performances en temps réel à faible latence. Ces applications bénéficient d'une infrastructure optimisée pour exécuter des algorithmes de machine learning.

AWS souhaite augmenter le poids du deep learning pour les développeurs de tous les jours et démocratiser l’accès à du matériel de pointe, le tout mis à disposition dans un modèle de paiement à l'usage à faible coût. AWS Inferentia fait en grand pas dans cette direction et se tourne vraiment vers cette approche. AWS Inferentia est conçu pour fournir des performances d'inférence élevées dans le cloud, réduire le coût total de l'inférence et faciliter l'intégration du machine learning aux fonctionnalités et aux capacités de vos applications standard.

AWS Inferentia

Avantages

Hautes performances

Chaque puce AWS Inferentia offre des performances allant jusqu'à 128 TOPS (tera-opérations par seconde) à faible puissance pour activer plusieurs puces par instance EC2. AWS Inferentia prend en charge les types de données FP16, BF16 et INT8. De plus, Inferentia peut prendre un modèle entraîné 32 bits et l'exécuter à la vitesse d'un modèle 16 bits à l'aide de BFloat16.

Faible latence

Les puces AWS Inferentia disposent d'une grande quantité de mémoire sur puce qui peut être utilisée pour la mise en cache de grands modèles, ce qui évite de devoir les stocker hors puce. Cela a un impact significatif sur la réduction de la latence d'inférence, car les cœurs de traitement d'Inferentia, Neuron Cores, ont un accès haut débit aux modèles et ne sont pas limités par la bande passante mémoire hors puce de la puce.

Simplicité d'utilisation

AWS Inferentia est doté du kit de développement logiciel (SDK) AWS Neuron, qui permet d'exécuter des modèles de réseau de neurones complexes, créés et formés dans des cadres courants, à l'aide des instances Inf1 d'EC2 basées sur AWS Inferentia. Neuron comprend un compilateur, des outils d'exécution et de profilage et est pré-intégré dans les cadres de machine learning les plus courants, comme TensorFlow, Pytorch et MXNet, afin d’optimiser les performances des instances Inf1 d'EC2.

Product-Page_Standard-Icons_02_Sign-Up_SqInk
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Commencez à créer sur la console

Démarrage avec le machine learning dans la console AWS.

Se connecter