Amazon Elastic Inference vous permet de joindre la quantité appropriée d'accélération d'inférence alimentée par GPU à tout type d'instance Amazon EC2 ou SageMaker. Cela signifie que vous pouvez désormais choisir le type d'instance le mieux adapté aux besoins globaux de votre application en calcul, en mémoire et en stockage, puis configurer séparément la quantité d'accélération d'inférence dont vous avez besoin. 

Intégré à Amazon SageMaker et Amazon EC2

Vous pouvez exécuter des charges de travail d'inférence de deux manières différentes sur AWS : en déployant votre modèle sur Amazon SageMaker pour une expérience entièrement gérée ou en l'exécutant sur vos instances Amazon EC2 et en les gérant vous-mêmes. Amazon Elastic Inference s'intègre pour fonctionner en toute transparence avec Amazon SageMaker et Amazon EC2, en vous permettant d'ajouter des accélérations d'inférence dans les deux scénarios. Avec Amazon SageMaker, vous pouvez préciser la quantité d'accélération d'inférence souhaitée lorsque vous créez le point de terminaison HTTPS de votre modèle. Avec Amazon EC2, cette opération s'effectue lorsque vous lancez votre instance.

Support TensorFlow et Apache MXNet

Amazon Elastic Inference est conçu pour s'utiliser avec les versions améliorées par AWS de TensorFlow Serving et d'Apache MXNet. Ces améliorations activent les frameworks pour détecter la présence d'accélérateurs d'inférence, répartir les opérations de modèle de manière optimale entre le GPU de l'accélérateur et le processeur de l'instance et contrôler l'accès à vos accélérateurs de manière sécurisée à l'aide des politiques AWS Identity and Access Management. Amazon SageMaker et les AMI AWS Deep Learning fournissent automatiquement les bibliothèques TensorFlow Serving et MXNet améliorées. De cette manière, vous n'avez pas à apporter de modifications au code pour déployer vos modèles en production. Vous pouvez également les télécharger séparément en suivant les instructions ici.

Format Open Neural Network Exchange (ONNX) pris en charge

ONNX est un format ouvert qui rend possible la formation d'un modèle de framework de deep learning et de le transférer vers un autre pour inférence. Cela vous permet de profiter des forces relatives des différents frameworks. Par exemple, avec ONNX, vous pouvez profiter de la flexibilité de PyTorch pour développer et entraîner votre modèle, puis le transférer vers Apache MXNet afin de pouvoir gérer efficacement les inférences à très grande échelle. ONNX s'intègre à PyTorch, MXNet, Chainer, Caffe2 et Microsoft Cognitive Toolkit et il existe des connecteurs pour de nombreux autres frameworks dont TensorFlow. Pour utiliser les modèles ONNX avec Amazon Elastic Inference, vos modèles formés doivent être transférés vers la version optimisée pour AWS d'Apache MXNet pour le déploiement de production.

Choix d'opérations de précision unique ou mitigée

Les accélérateurs Amazon Elastic Inference prennent en charge les opérations de précision unique (virgule flottante de 32 bits) et mitigée (virgule flottante de 16 bits). Une précision unique fournit une plage numérique extrêmement large pour représenter les paramètres que votre modèle utilise. Cependant, la plupart des modèles n'ont en fait pas besoin d'autant de précision et de calculer des nombres qui entraînent des pertes de performances qui ne sont pas nécessaires. Pour éviter ce problème, les opérations de précision mitigée vous permettent de réduire la plage numérique de moitié pour gagner jusqu'à 8 fois plus de performances d'inférence.

Disponible en plusieurs montants d'accélération

Amazon Elastic Inference est disponible dans plusieurs tailles de débit allant d'opérations de virgule flottante allant de 1 à 32 trillions par seconde (TFLOPS) par accélérateur, ce qui le rend efficace pour l'accélération d'une large plage de modèles d'inférence y compris la vision par ordinateur, le traitement du langage naturel et la reconnaissance vocale. Par rapport aux instances autonomes Amazon EC2 P3 qui démarrent à 125 TFLOPS (la plus petite instance P3 disponible), Amazon Elastic Inference démarre à un TFLOPS unique par accélérateur. Cela vous permet d'adapter l'accélération d'inférence sur plusieurs incréments appropriés. Vous pouvez également effectuer votre sélection depuis plusieurs tailles d'accélérateurs plus importantes, jusqu'à 32 TFLOPS par accélérateur pour des modèles plus complexes.

Auto Scaling

Amazon Elastic Inference peut faire partie du même groupe Auto Scaling Amazon EC2 que vous utilisez pour adapter vos instances Amazon EC2 et Amazon SageMaker. Lorsque l'Auto Scaling EC2 ajoute plus d'instances EC2 pour se conformer aux demandes de votre application, cela met également à l'échelle l'accélérateur lié à chaque instance. De même, lorsque l'Auto Scaling réduit vos instances EC2 à mesure que la demande diminue, il accélère l'accélérateur connecté pour chaque instance. Cela facilite la mise à l'échelle de votre accélération d'inférence ainsi que la capacité de calcul de votre application pour vous conformer aux demandes de votre application.

Product-Page_Standard-Icons_01_Product-Features_SqInk
En savoir plus sur la tarification du produit

Consultez la tarification d'Amazon Elastic Inference.

En savoir plus 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Commencez à créer sur la console

Premiers pas avec Amazon Elastic Inference sur Amazon SageMaker ou Amazon EC2.

Se connecter