Fonctionnalités d'Amazon Elastic Inference

Mise à jour importante

Merci de l'intérêt que vous portez à Amazon Elastic Inference. Amazon Elastic Inference n'est plus disponible pour les nouveaux clients. Vous pouvez obtenir de meilleures performances à moindre coût pour vos charges de travail d'inférence liées au machine learning en utilisant d'autres options d'accélération matérielle telles qu'AWS Inferentia. Si vous utilisez actuellement Amazon Elastic Inference, pensez à migrer votre charge de travail vers ces alternatives. Pour en savoir plus, consultez la page AWS Machine Learning Infrastructure.

Amazon Elastic Inference vous permet d'associer le niveau approprié d'accélération d'inférence alimentée par GPU à toute instance Amazon EC2 ou Amazon SageMaker, ou à une tâche ECS. Vous pouvez donc désormais sélectionner l'instance de processeur la plus adaptée aux besoins globaux de votre application en matière de calcul, de mémoire et de stockage, puis configurer séparément le niveau d'accélération d'inférence nécessaire.

Intégration à Amazon SageMaker, Amazon EC2 et Amazon ECS

Vous pouvez exécuter des charges de travail d'inférence de plusieurs manières différentes sur AWS : en déployant votre modèle sur Amazon SageMaker pour une expérience entièrement gérée ou en l'exécutant sur des instances Amazon EC2 ou sur des tâches Amazon ECS et en les gérant vous-mêmes. Amazon Elastic Inference s'intègre pour fonctionner en toute transparence avec Amazon SageMaker, Amazon EC2 et Amazon ECS, en vous permettant d'ajouter des accélérations d'inférence dans tous les scénarios. Vous pouvez spécifier le niveau d'accélération d'inférence souhaité lorsque vous créez le point de terminaison HTTPS de votre modèle dans Amazon SageMaker, au moment où vous lancez votre instance Amazon EC2 et quand vous définissez votre tâche Amazon ECS.

Prise en charge de TensorFlow Serving, d'Apache MXNet et de PyTorch

Amazon Elastic Inference est conçu pour être employé avec les versions améliorées, par AWS, de TensorFlow Serving, d'Apache MXNet et de PyTorch. Grâce à ces améliorations, les frameworks peuvent détecter automatiquement la présence d'accélérateurs d'inférence, répartir les opérations de modélisation de manière optimale entre le GPU de l'accélérateur et le processeur de l'instance, et contrôler l'accès à vos accélérateurs de manière sécurisée à l'aide des politiques AWS Identity and Access Management (IAM). Amazon SageMaker, les AMI AWS Deep Learning et AWS Deep Learning Containers incluent automatiquement les bibliothèques TensorFlow Serving, MXNet et PyTorch améliorées. De cette manière, vous n'avez pas à apporter de modifications au code pour déployer vos modèles en production. Vous pouvez également les télécharger séparément en suivant les instructions disponibles ici.

Format Open Neural Network Exchange (ONNX) pris en charge

ONNX est un format ouvert qui rend possible la formation d'un modèle de framework de deep learning et de le transférer vers un autre pour inférence. Ceci vous permet de profiter de tous les avantages des différents frameworks. ONNX s'intègre à PyTorch, MXNet, Chainer, Caffe2 et Microsoft Cognitive Toolkit, et il existe des connecteurs pour de nombreux autres frameworks, dont TensorFlow Serving. Pour utiliser les modèles ONNX avec Amazon Elastic Inference, vos modèles formés doivent être transférés vers la version optimisée pour AWS d'Apache MXNet pour le déploiement de production.

Choix d'opérations de précision unique ou mitigée

Les accélérateurs Amazon Elastic Inference prennent en charge les opérations de précision unique (virgule flottante de 32 bits) et mitigée (virgule flottante de 16 bits). Une précision unique fournit une plage numérique extrêmement large pour représenter les paramètres que votre modèle utilise. Cependant, la plupart des modèles n'ont en fait pas besoin d'autant de précision et de calculer des nombres qui entraînent des pertes de performances qui ne sont pas nécessaires. Pour éviter ce problème, les opérations de précision mitigée vous permettent de réduire la plage numérique de moitié pour gagner jusqu'à 8 fois plus de performances d'inférence.

Disponible en plusieurs montants d'accélération

Amazon Elastic Inference est disponible dans plusieurs tailles de débit allant d'opérations de virgule flottante allant de 1 à 32 trillions par seconde (TFLOPS) par accélérateur, ce qui le rend efficace pour l'accélération d'une large plage de modèles d'inférence y compris la vision par ordinateur, le traitement du langage naturel et la reconnaissance vocale. Par rapport aux instances autonomes Amazon EC2 P3 qui démarrent à 125 TFLOPS (la plus petite instance P3 disponible), Amazon Elastic Inference démarre à un TFLOPS unique par accélérateur. Cela vous permet d'adapter l'accélération d'inférence sur plusieurs incréments appropriés. Vous pouvez également effectuer votre sélection depuis plusieurs tailles d'accélérateurs plus importantes, jusqu'à 32 TFLOPS par accélérateur pour des modèles plus complexes.

Auto Scaling

Amazon Elastic Inference peut faire partie du même groupe Amazon EC2 Auto Scaling que vous utilisez pour adapter vos instances Amazon SageMaker, Amazon EC2 et Amazon ECS. Lorsque EC2 Auto Scaling ajoute plus d'instances EC2 pour se conformer aux demandes de votre application, cela met également à l'échelle l'accélérateur lié à chaque instance. De même, lorsque l'Auto Scaling réduit vos instances EC2 à mesure que la demande diminue, il accélère l'accélérateur connecté pour chaque instance. Cela facilite la mise à l'échelle de votre accélération d'inférence ainsi que la capacité de calcul de votre application pour vous conformer aux demandes de votre application.