Amazon Elastic Inference vous permet d'associer la quantité appropriée d'accélération d'inférence alimentée par GPU à toute instance Amazon EC2 ou Amazon SageMaker ou à une tâche ECS. Cela signifie que vous pouvez désormais choisir l'instance la mieux adaptée aux besoins globaux de votre application en calcul, en mémoire et en stockage, puis configurer séparément la quantité d'accélération d'inférence dont vous avez besoin.

Intégré à Amazon SageMaker, Amazon EC2 et Amazon ECS

Vous pouvez exécuter des charges de travail d'inférence de plusieurs manières différentes sur AWS : en déployant votre modèle sur Amazon SageMaker pour une expérience entièrement gérée ou en l'exécutant sur des instances Amazon EC2 ou sur des tâches Amazon ECS et en les gérant vous-mêmes. Amazon Elastic Inference s'intègre pour fonctionner en toute transparence avec Amazon SageMaker, Amazon EC2 et Amazon ECS, en vous permettant d'ajouter des accélérations d'inférence dans tous les scénarios. Vous pouvez préciser la quantité d'accélération d'inférence souhaitée lorsque vous créez le point de terminaison HTTPS de votre modèle dans Amazon SageMaker, au moment où vous lancez votre instance Amazon EC2 et lorsque vous définissez votre tâche Amazon ECS.

Prise en charge de TensorFlow et Apache MXNet

Amazon Elastic Inference est conçu pour s'utiliser avec les versions améliorées par AWS de TensorFlow Serving et d'Apache MXNet. Ces améliorations activent les frameworks pour détecter automatiquement la présence d'accélérateurs d'inférence, répartir les opérations de modèle de manière optimale entre le GPU de l'accélérateur et le processeur de l'instance et contrôler l'accès à vos accélérateurs de manière sécurisée à l'aide des politiques AWS Identity and Access Management (IAM). Amazon SageMaker, les AMI AWS Deep Learning et AWS Deep Learning Containers fournissent automatiquement les bibliothèques TensorFlow Serving et MXNet améliorées. De cette manière, vous n'avez pas à apporter de modifications au code pour déployer vos modèles en production. Vous pouvez également les télécharger séparément en suivant les instructions ici.

Prise en charge du format Open Neural Network Exchange (ONNX)

ONNX est un format ouvert qui rend possible la formation d'un modèle de framework de deep learning et de le transférer vers un autre pour inférence. Cela vous permet de profiter des forces relatives des différents frameworks. Par exemple, avec ONNX, vous pouvez profiter de la flexibilité de PyTorch pour développer et entraîner votre modèle, puis le transférer vers Apache MXNet afin de pouvoir gérer efficacement les inférences à très grande échelle. ONNX s'intègre à PyTorch, MXNet, Chainer, Caffe2 et Microsoft Cognitive Toolkit et il existe des connecteurs pour de nombreux autres frameworks dont TensorFlow. Pour utiliser les modèles ONNX avec Amazon Elastic Inference, vos modèles formés doivent être transférés vers la version optimisée pour AWS d'Apache MXNet pour le déploiement de production.

Choix d'opérations de précision unique ou mitigée

Les accélérateurs Amazon Elastic Inference prennent en charge les opérations de précision unique (virgule flottante de 32 bits) et mitigée (virgule flottante de 16 bits). Une précision unique fournit une plage numérique extrêmement large pour représenter les paramètres que votre modèle utilise. Cependant, la plupart des modèles n'ont en fait pas besoin d'autant de précision et de calculer des nombres qui entraînent des pertes de performances qui ne sont pas nécessaires. Pour éviter ce problème, les opérations de précision mitigée vous permettent de réduire la plage numérique de moitié pour gagner jusqu'à 8 fois plus de performances d'inférence.

Disponible en plusieurs montants d'accélération

Amazon Elastic Inference est disponible dans plusieurs tailles de débit allant d'opérations de virgule flottante allant de 1 à 32 trillions par seconde (TFLOPS) par accélérateur, ce qui le rend efficace pour l'accélération d'une large plage de modèles d'inférence y compris la vision par ordinateur, le traitement du langage naturel et la reconnaissance vocale. Par rapport aux instances autonomes Amazon EC2 P3 qui démarrent à 125 TFLOPS (la plus petite instance P3 disponible), Amazon Elastic Inference démarre à un TFLOPS unique par accélérateur. Cela vous permet d'adapter l'accélération d'inférence sur plusieurs incréments appropriés. Vous pouvez également effectuer votre sélection depuis plusieurs tailles d'accélérateurs plus importantes, jusqu'à 32 TFLOPS par accélérateur pour des modèles plus complexes.

Auto Scaling

Amazon Elastic Inference peut faire partie du même groupe Amazon EC2 Auto Scaling que vous utilisez pour adapter vos instances Amazon SageMaker, Amazon EC2 et Amazon ECS. Lorsque EC2 Auto Scaling ajoute plus d'instances EC2 pour se conformer aux demandes de votre application, cela met également à l'échelle l'accélérateur lié à chaque instance. De même, lorsque l'Auto Scaling réduit vos instances EC2 à mesure que la demande diminue, il accélère l'accélérateur connecté pour chaque instance. Cela facilite la mise à l'échelle de votre accélération d'inférence ainsi que la capacité de calcul de votre application pour vous conformer aux demandes de votre application. 

Product-Page_Standard-Icons_01_Product-Features_SqInk
En savoir plus sur la tarification du produit

Consultez la tarification d'Amazon Elastic Inference.

En savoir plus 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Commencez à créer sur la console

Premiers pas avec Amazon Elastic Inference sur Amazon SageMaker ou Amazon EC2.

Se connecter