AWS Inferentia

Puce d'inférence machine learning hautes performances, spécialement conçue par AWS

La demande d'accélération de deep learning augmente à un rythme effréné et dans un large éventail d'applications. Les applications telles que les recommandations de recherche personnalisées, la tarification dynamique ou le service clientèle automatisé gagnent en sophistication et deviennent plus onéreuses à exécuter en production. Comme de plus en plus d'applications intègrent des capacités de machine learning, de nombreuses charges de travail ont besoin d'accélération, y compris celles qui nécessitent des performances en temps réel à faible latence. Ces applications bénéficient d'une infrastructure optimisée pour exécuter des algorithmes de machine learning.

AWS souhaite augmenter le poids du deep learning pour les développeurs de tous les jours et démocratiser l’accès à du matériel de pointe, le tout mis à disposition dans un modèle de paiement à l'usage à faible coût. AWS Inferentia fait en grand pas dans cette direction et se tourne vraiment vers cette approche. AWS Inferentia est conçu pour fournir des performances d'inférence élevées dans le cloud, réduire le coût total de l'inférence et faciliter l'intégration du machine learning aux fonctionnalités et aux capacités de vos applications standard. AWS Inferentia est doté du kit de développement logiciel (SDK) AWS Neuron, qui comprend un compilateur, un environnement d’exécution et des outils de profilage. Il permet d'exécuter des modèles de réseau neuronaux complexes, créés et formés dans des frameworks courants, tels que Tensorflow, PyTorch et MXNet, à l'aide des instances Inf1 d'Amazon EC2 basées sur AWS Inferentia.

AWS Inferentia

Avantages

Hautes performances

Chaque puce AWS Inferentia offre des performances allant jusqu'à 128 TOPS (tera-opérations par seconde) à faible puissance pour activer plusieurs puces par instance EC2. AWS Inferentia prend en charge les types de données FP16, BF16 et INT8. De plus, Inferentia peut prendre un modèle entraîné 32 bits et l'exécuter à la vitesse d'un modèle 16 bits à l'aide de BFloat16.

Faible latence

Les puces AWS Inferentia disposent d'une grande quantité de mémoire sur puce qui peut être utilisée pour la mise en cache de grands modèles, ce qui évite de devoir les stocker hors puce. Cela a un impact significatif sur la réduction de la latence d'inférence, car les cœurs de traitement d'Inferentia, Neuron Cores, ont un accès haut débit aux modèles et ne sont pas limités par la bande passante mémoire hors puce de la puce.

Simplicité d'utilisation

Les modèles de machine learning formés peuvent être facilement déployés sur les instances Inf1 d’Amazon EC2 basées sur AWS Inferentia avec peu de changements de code. Pour un démarrage rapide, vous pouvez utiliser Amazon SageMaker, service entièrement géré qui vous permet de créer, former et déployer des modèles de machine learning. Les développeurs qui préfèrent gérer leurs propres flux de travail pour construire et déployer leurs modèles peuvent utiliser directement le SDK AWS Neuron, qui est intégré nativement aux frameworks les plus courants, notamment TensorFlow, PyTorch et MXNet. AWS Neuron est également pré-installé dans les AMI AWS Deep Learning. Il peut également être installé dans votre environnement personnalisé sans cadre.

Instances Inf1 d'Amazon EC2 propulsées par AWS Inferentia

Les instances Inf1 d'Amazon EC2 offrent des performances élevées et l'inférence de machine learning la plus économique dans le cloud. Les clients qui utilisent les instances Inf1 peuvent exécuter à moindre coût dans le cloud des applications d'inférence de machine learning à grande échelle comme la reconnaissance d'images, la reconnaissance vocale, le traitement du langage naturel, la personnalisation et la détection des fraudes.

En savoir plus »

Product-Page_Standard-Icons_02_Sign-Up_SqInk
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Commencez à créer sur la console

Démarrage avec le machine learning dans la console AWS.

Se connecter