AWS Inferentia

Puce d'inférence machine learning hautes performances, spécialement conçue par AWS

AWS souhaite augmenter le poids du deep learning pour les développeurs de tous les jours et démocratiser l'accès à l'infrastructure de pointe, le tout mis à disposition dans un modèle de paiement à l'usage à faible coût. AWS Inferentia est le premier silicium personnalisé d'Amazon conçu pour accélérer les charges de travail de deep learning et qui appartient à une stratégie à long terme visant à concrétiser cette approche. AWS Inferentia est conçu pour fournir des performances d'inférence élevées dans le cloud, réduire le coût total de l'inférence et permettre aux développeurs d'intégrer facilement du machine learning aux fonctionnalités et aux capacités de leurs applications métier. Le kit de développement logiciel (SDK) AWS Neuron, qui comprend un compilateur, un environnement d'exécution et des outils de profilage qui aident à optimiser les performances des charges de travail pour AWS Inferentia, permet d'exécuter des modèles de réseaux neuronaux complexes, créés et formés dans des frameworks courants, tels que TensorFlow, PyTorch et MXNet, à l'aide des instances Inf1 d'Amazon EC2 basées sur AWS Inferentia.

AWS Inferentia

Avantages

Hautes performances

Chaque puce AWS Inferentia offre des performances allant jusqu'à 128 TOPS (tera-opérations par seconde) comprenant au maximum 16 puces Inferentia par instance EC2 Inf1. Inferentia est optimisé pour optimiser le débit des lots de petite taille, ce qui est particulièrement utile les applications qui ont des exigences strictes en matière de latence, telles que les applications de génération vocale ou de recherche.

Faible latence

Les puces AWS Inferentia disposent d'une grande quantité de mémoire sur puce qui peut être utilisée pour la mise en cache de grands modèles, ce qui évite de devoir les stocker hors puce. Cela a un impact significatif sur la réduction de la latence d'inférence étant donné que les cœurs de traitement d'Inferentia, appelés Neuron Cores, ont un accès haut débit aux modèles enregistrés sur la mémoire de la puce et ne sont pas limités par la bande passante de la mémoire hors puce de la puce.

Flexibilité

Les développeurs peuvent former des modèles à l'aide de frameworks populaires tels que TensorFlow, PyTorch et MXNet, puis les déployer facilement sur les instances Inf1 d'Amazon EC2 basées sur AWS Inferentia en utilisant le kit SDK d'AWS Neuron. AWS Inferentia prend en charge les types de données FP16, BF16 et INT8. De plus, Inferentia peut prendre un modèle entraîné 32 bits et l'exécuter automatiquement à la vitesse d'un modèle 16 bits à l'aide de BFloat16.

Instances Inf1 d'Amazon EC2 propulsées par AWS Inferentia

Les puces des instances Inf1 d'Amazon EC2 basées sur AWS Inferentia offrent un débit jusqu'à 30 % plus élevé et un coût par inférence jusqu'à 45 % inférieur à celui des instances Amazon EC2 G4 alors même que ces dernières étaient déjà les instances les plus moins chères pour l'inférence de machine learning disponible dans le cloud. Les instances Inf1 comportent jusqu'à 16 puces AWS Inferentia. Elles sont dotées des derniers processeurs Intel® Xeon® Scalable de 2e génération, ainsi qu'à une mise en réseau à un débit atteignant 100 Gbit/s pour assurer une inférence à haut débit. Avec les instances Inf1, le plus simple est de commencer avec Amazon SageMaker, un service entièrement géré qui permet aux développeurs de créer, d'entraîner et de déployer rapidement des modèles de machine learning. Les développeurs qui utilisent des applications conteneurisées peuvent également utiliser Amazon Elastic Kubernetes Service (EKS) pour déployer les instances Inf1.

En savoir plus »

Kit SDK d'AWS Neuron

AWS Neuron est un kit de développement logiciel (SDK) pour l'exécution de l'inférence de machine learning utilisant des puces AWS Inferentia. AWS Neuron est constitué d'un compilateur, d'un environnement d'exécution et d'outils de profilage qui permettent aux développeurs d'exécuter une inférence hautement performante à faible latence, en utilisant des instances Inf1 basées sur AWS Inferentia. AWS Neuron offre aux développeurs la flexibilité nécessaire pour former leurs modèles de machine learning sur n'importe quel framework populaire, tel que TensorFlow, PyTorch et MXNet, et de les exécuter de façon optimale sur les instances Inf1 d'Amazon EC2. Le kit SDK d'AWS Neuron est livré préinstallé dans les AMI AWS Deep Learning, et sera également prochainement disponible dans AWS Deep Learning Containers.

En savoir plus » ou Commencer »

Vidéos

AWS re:Invent 2019 : Regardez Andy Jassy parler des investissements en silicium et d'Inf1
AWS re:Invent 2019 : ML Inference avec de nouvelles instances Inf1 d'Amazon EC2, avec Amazon Alexa
Réduire le coût d'exécution des applications de machine learning avec les nouvelles instances Inf1 d'Amazon EC2 - Discussions en ligne sur la technologie AWS
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Commencez à créer sur la console

Démarrage avec le machine learning dans la console AWS.

Se connecter