Amazon Elastic Inference

Réduction des coûts d'inférence du machine learning jusqu'à 75 %

Amazon Elastic Inference vous permet de relier une accélération à faible coût basée sur GPU à des instances Amazon EC2 et Amazon SageMaker ou à des tâches Amazon ECS afin de réduire le coût d'exécution de l'inférence du deep learning jusqu'à 75 %. Amazon Elastic Inference prend en charge les modèles TensorFlow, Apache MXNet, PyTorch et ONNX.

L'inférence se rapporte au processus impliquant la réalisation de prédictions à l'aide d'un modèle entraîné. Dans les applications de deep learning, l'inférence représente jusqu'à 90 % des coûts opérationnels pour deux raisons. Tout d'abord, les instances de GPU autonomes sont généralement conçues pour la formation de modèles, et non pour l'inférence. Alors que les tâches d'apprentissage traitent des centaines d'échantillons de données en parallèle, l'inférence se produit sur une seule entrée en temps réel, et ne consomme ainsi qu'une petite quantité de la puissance de calcul du GPU. Les instances de GPU autonomes ne sont donc pas rentables dans un contexte d'inférence. D'autre part, les instances de GPU autonomes ne sont pas adaptées aux opérations induisant des matrices et sont, de ce fait, souvent trop peu réactives en cas d'inférence et de deep learning. Par ailleurs, des modèles différents impliquent des exigences distinctes en matière de mémoire, de processeur et de GPU. Le fait d'optimiser une ressource peut entraîner la sous-utilisation des autres, et des coûts plus élevés.

Amazon Elastic Inference permet de remédier à ces problèmes en vous offrant la possibilité d'associer le niveau approprié d'accélération d'inférence alimentée par GPU à tout type d'instance EC2 ou SageMaker, ou à une tâche ECS, sans qu'aucune modification de code ne soit requise. Avec Amazon Elastic Inference, vous pouvez choisir, dans AWS, l'instance de processeur la plus adaptée aux besoins globaux de votre application en matière de calcul et de mémoire, puis configurer séparément le niveau d'accélération d'inférence dont vous avez besoin pour utiliser efficacement les ressources et réduire les coûts.

Présentation d'Amazon Elastic Inference

Avantages

Réduction des couts d’inférences allant jusqu’à 75 %

Amazon Elastic Inference vous permet de choisir le type d'instance le mieux adapté aux besoins généraux de calcul et de mémoire de votre application. Vous pouvez ensuite spécifier séparément la quantité d'accélération d'inférence dont vous avez besoin. Cela réduit les coûts d'inférence jusqu'à 75 %, car vous n'avez plus besoin de sur-approvisionner le calcul GPU pour l'inférence.

Obtenez précisément ce dont vous avez besoin

Amazon Elastic Inference peut fournir une accélération d'inférence TFLOPS à aussi peu qu’une seule précision (des trillions d'opérations en virgule flottante par seconde) ou jusqu'à 32 TFLOPS à précision mixte. Il s'agit d'une plage de calculs d'inférence bien plus appropriée que la plage allant jusqu'à 1 000 TFLOPS fournie par une instance autonome Amazon EC2 P3. Par exemple, un modèle de traitement de langage simple peut ne nécessiter qu'un seul TFLOPS pour bien exécuter l'inférence, alors qu'un modèle de vision informatique sophistiqué peut nécessiter jusqu'à 32 TFLOPS.

Répondez aux changements de demande

Vous pouvez facilement augmenter et réduire la quantité d'accélération d'inférence à l'aide des groupes Auto Scaling Amazon EC2 afin de répondre aux demandes de votre application sans allouer une capacité excessive. Lorsque EC2 Auto Scaling augmente le nombre d'instances EC2 afin de répondre à la demande croissante, il accélère automatiquement l'accélérateur connecté pour chaque instance. De même, lorsqu'il réduit vos instances EC2 à mesure que la demande diminue, il accélère automatiquement l'accélérateur connecté pour chaque instance. Cela vous aide à ne payer que ce dont vous avez besoin quand vous en avez besoin.

Prise en charge de frameworks populaires

Amazon Elastic Inference prend en charge les modèles TensorFlow et Apache MXNet, avec des frameworks supplémentaires à venir.

tensorflow_logo_200px
mxnet_150x50
logo-pytorch
Blog : Amazon Elastic Inference – Accélération d’inférence propulsée par GPU
28 novembre 2018
 
Standard Product Icons (Features) Squid Ink
Contrôlez les fonctions du produit

En savoir plus sur les fonctionnalités d’Amazon Elastic Inference

En savoir plus 
Sign up for a free account
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Standard Product Icons (Start Building) Squid Ink
Commencez à créer sur la console

Premiers pas avec Amazon Elastic Inference sur Amazon SageMaker ou Amazon EC2.

Se connecter