AWS Inferentia
AWS souhaite augmenter le poids du deep learning pour les développeurs de tous les jours et démocratiser l'accès à l'infrastructure de pointe, le tout mis à disposition dans un modèle de paiement à l'usage à faible coût. AWS Inferentia est le premier silicium personnalisé d'Amazon conçu pour accélérer les charges de travail de deep learning et qui appartient à une stratégie à long terme visant à concrétiser cette approche. AWS Inferentia est conçu pour fournir des performances d'inférence élevées dans le cloud, réduire le coût total de l'inférence et permettre aux développeurs d'intégrer facilement du machine learning aux fonctionnalités et aux capacités de leurs applications métier.
Le kit de développement logiciel (SDK) AWS Neuron comprend un compilateur ainsi que des outils d'exécution et de profilage qui permettent d'optimiser la performance des charges de travail pour AWS Inferentia. Les développeurs peuvent déployer des modèles de réseaux neuronaux complexes, construits et formés sur des frameworks courants, tels que Tensorflow, PyTorch et MXNet, et les déployer sur des instances Inf1 d'Amazon EC2 basées sur AWS Inferentia. Vous pouvez continuer à utiliser les mêmes frameworks ML qu'aujourd'hui et migrer vos modèles vers Inf1 avec un minimum de modifications du code, sans être lié aux solutions d'un fournisseur.
Avantages
Hautes performances
Chaque puce AWS Inferentia offre des performances allant jusqu'à 128 TOPS (tera-opérations par seconde) comprenant au maximum 16 puces Inferentia par instance EC2 Inf1. Inferentia est optimisé pour optimiser le débit des lots de petite taille, ce qui est particulièrement utile les applications qui ont des exigences strictes en matière de latence, telles que les applications de génération vocale ou de recherche.
Faible latence
Les puces AWS Inferentia disposent d'une grande quantité de mémoire sur puce qui peut être utilisée pour la mise en cache de grands modèles, ce qui évite de devoir les stocker hors puce. Cela a un impact significatif sur la réduction de la latence d'inférence étant donné que les cœurs de traitement d'Inferentia, appelés Neuron Cores, ont un accès haut débit aux modèles enregistrés sur la mémoire de la puce et ne sont pas limités par la bande passante de la mémoire hors puce de la puce.
Simple d'utilisation
Les développeurs peuvent former des modèles à l'aide de frameworks populaires tels que TensorFlow, PyTorch et MXNet, puis les déployer facilement sur les instances Inf1 d'Amazon EC2 basées sur AWS Inferentia en utilisant le kit SDK d'AWS Neuron. AWS Inferentia prend en charge les types de données FP16, BF16 et INT8. De plus, Inferentia peut prendre un modèle entraîné 32 bits et l'exécuter automatiquement à la vitesse d'un modèle 16 bits à l'aide de BFloat16.
Instances Inf1 d'Amazon EC2 à technologie AWS Inferentia
Les instances Inf1 d'Amazon EC2 basées sur les puces AWS Inferentia offrent un débit jusqu'à 2,3 fois plus élevé et un coût par inférence jusqu'à 70 % inférieur à celui des instances Amazon EC2 comparables basées sur des GPU de génération actuelle. Les instances Inf1 comportent jusqu'à 16 puces AWS Inferentia. Elles sont dotées des derniers processeurs Intel® Xeon® Scalable de 2e génération, ainsi qu'à une mise en réseau à un débit atteignant 100 Gbit/s pour assurer une inférence à haut débit. Avec les instances Inf1, le plus simple est de commencer avec Amazon SageMaker, un service entièrement géré qui permet aux développeurs de créer, d'entraîner et de déployer rapidement des modèles de machine learning. Les développeurs qui utilisent des applications conteneurisées peuvent également utiliser Amazon Elastic Kubernetes Service (EKS) pour déployer les instances Inf1.
Kit SDK d'AWS Neuron
AWS Neuron est un kit de développement logiciel (SDK) pour l'exécution de l'inférence de machine learning utilisant des puces AWS Inferentia. AWS Neuron est constitué d'un compilateur, d'un environnement d'exécution et d'outils de profilage qui permettent aux développeurs d'exécuter une inférence hautement performante à faible latence, en utilisant des instances Amazon EC2 basées sur AWS Inferentia. Grâce à AWS Neuron, les développeurs disposent de la flexibilité nécessaire pour entraîner leurs modèles de machine learning sur n'importe quel framework populaire, tel que TensorFlow, PyTorch et MXNet, et de les exécuter de façon optimale sur les instances Inf1 d'Amazon EC2. Vous pouvez continuer à utiliser les mêmes frameworks ML qu'aujourd'hui et migrer vos logiciels vers les instances Inf1 avec un minimum de modifications du code, sans être lié aux solutions d'un fournisseur. Le kit SDK d'AWS Neuron est livré préinstallé dans AWS Deep Learning AMIs et dans AWS Deep Learning Containers, ce qui simplifie la prise en main des instances Inf1.
Blogs et articles
Patrick Moorhead, 13 mai 2020
James Hamilton, 28 novembre 2018
Vidéos
Ressources
- Apprenez à déployer vers des instances Inf1 à l'aide d'Amazon SageMaker avec des exemples Amazon SageMaker sur Github
- Mise en route de AWS Neuron
- Caractéristiques de la feuille de route d'AWS Neuron
- Utiliser AWS Neuron depuis TensorFlow, PyTorch ou MXNet
- Consultez le forum des développeurs AWS Neuron pour obtenir de l'aide

Démarrage avec le machine learning dans la console AWS.