Amazon Elastic Inference

Réduire les coûts d'inférence du machine learning jusqu'à 75 %

 Mise à jour importante

Merci de l'intérêt que vous portez à Amazon Elastic Inference. Amazon Elastic Inference n'est plus disponible pour les nouveaux clients. Vous pouvez obtenir de meilleures performances à moindre coût pour vos charges de travail d'inférence liées au machine learning en utilisant d'autres options d'accélération matérielle telles qu'AWS Inferentia. Si vous utilisez actuellement Amazon Elastic Inference, envisagez de migrer votre charge de travail vers ces autres options. Pour en savoir plus, consultez la page Infrastructure AWS Machine Learning.

Amazon Elastic Inference vous permet de relier une accélération à faible coût alimentée par GPU à des instances Amazon EC2 et Amazon SageMaker ou à des tâches Amazon ECS afin de réduire le coût d'exécution de l'inférence du deep learning jusqu'à 75 %. Amazon Elastic Inference prend en charge les modèles TensorFlow, Apache MXNet, PyTorch et ONNX.

L'inférence se rapporte au processus impliquant la réalisation de prédictions à l'aide d'un modèle entraîné. Dans les applications de deep learning, l'inférence représente jusqu'à 90 % des coûts opérationnels pour deux raisons. Tout d'abord, les instances de GPU autonomes sont généralement conçues pour la formation de modèles, et non pour l'inférence. Alors que les tâches d'apprentissage traitent des centaines d'échantillons de données en parallèle, l'inférence se produit sur une seule entrée en temps réel, et ne consomme ainsi qu'une petite quantité de la puissance de calcul du GPU. Les instances de GPU autonomes ne sont donc pas rentables dans un contexte d'inférence. D'autre part, les instances de GPU autonomes ne sont pas adaptées aux opérations induisant des matrices et sont, de ce fait, souvent trop peu réactives en cas d'inférence et de deep learning. Par ailleurs, des modèles différents impliquent des exigences distinctes en matière de mémoire, de processeur et de GPU. Le fait d'optimiser une ressource peut entraîner la sous-utilisation des autres, et des coûts plus élevés.

Amazon Elastic Inference permet de remédier à ces problèmes en vous offrant la possibilité d'associer le niveau approprié d'accélération d'inférence alimentée par GPU à tout type d'instance EC2 ou SageMaker, ou à une tâche ECS, sans qu'aucune modification de code ne soit requise. Avec Amazon Elastic Inference, vous pouvez choisir, dans AWS, l'instance de processeur la plus adaptée aux besoins globaux de votre application en matière de calcul et de mémoire, puis configurer séparément le niveau d'accélération d'inférence alimentée par GPU dont vous avez besoin pour utiliser efficacement les ressources et réduire les coûts.

Avantages

Réduction des couts d’inférences allant jusqu’à 75 %

Amazon Elastic Inference vous permet de choisir le type d'instance le mieux adapté aux besoins généraux de calcul et de mémoire de votre application. Vous pouvez ensuite spécifier séparément la quantité d'accélération d'inférence dont vous avez besoin. Cela réduit les coûts d'inférence jusqu'à 75 %, car vous n'avez plus besoin de sur-approvisionner le calcul GPU pour l'inférence.

Obtenez précisément ce dont vous avez besoin

Amazon Elastic Inference peut fournir une accélération d'inférence TFLOPS à aussi peu qu’une seule précision (des trillions d'opérations en virgule flottante par seconde) ou jusqu'à 32 TFLOPS à précision mixte. Il s'agit d'une plage de calculs d'inférence bien plus appropriée que la plage allant jusqu'à 1 000 TFLOPS fournie par une instance autonome Amazon EC2 P3. Par exemple, un modèle de traitement de langage simple peut ne nécessiter qu'un seul TFLOPS pour bien exécuter l'inférence, alors qu'un modèle de vision informatique sophistiqué peut nécessiter jusqu'à 32 TFLOPS.

Répondez aux changements de demande

Vous pouvez facilement augmenter et réduire la quantité d'accélération d'inférence à l'aide des groupes Auto Scaling Amazon EC2 afin de répondre aux demandes de votre application sans allouer une capacité excessive. Lorsque EC2 Auto Scaling augmente le nombre d'instances EC2 afin de répondre à la demande croissante, il accélère automatiquement l'accélérateur connecté pour chaque instance. De même, lorsqu'il réduit vos instances EC2 à mesure que la demande diminue, il accélère automatiquement l'accélérateur connecté pour chaque instance. Cela vous aide à ne payer que ce dont vous avez besoin quand vous en avez besoin.

Prise en charge des cadres courants

Amazon Elastic Inference prend en charge les modèles TensorFlow et Apache MXNet, avec des cadres supplémentaires à venir.

Blog : Amazon Elastic Inference – Accélération d’inférence propulsée par GPU
28 novembre 2018