Publié le: Dec 12, 2019
Vous pouvez désormais relier plusieurs accélérateurs Amazon Elastic Inference à une même instance Amazon EC2. Grâce à cette fonctionnalité, vous pouvez utiliser une instance EC2 unique dans un groupe de scalabilité automatique lorsque vous exécutez des inférences pour des modèles multiples. En reliant plusieurs accélérateurs à une même instance, vous évitez le déploiement de plusieurs groupes de scalabilité automatique d'instances CPU ou GPU pour vos inférences et réduisez vos coûts d'exploitation.
Amazon Elastic Inference vous permet de relier exactement la bonne quantité d’accélération basée sur GPU à une instance Amazon EC2 afin de réduire le coût d'exécution de l'inférence deep learning jusqu'à 75 %. Comme vos modèles peuvent nécessiter différentes quantités de mémoire GPU et différentes capacités de calcul, vous pouvez choisir différentes tailles d'accélérateurs Elastic Inference à relier à votre instance CPU. Pour des délais de réponse plus courts, vous pouvez charger vos modèles vers un accélérateur une seule fois et continuer à passer des appels d'inférence sans décharger les modèles.
La fonction de liaison de plusieurs accélérateurs à une même instance EC2 est prise en charge dans toutes les régions où Amazon Elastic Inference est disponible. Pour plus d'informations sur la liaison de plusieurs accélérateurs à une même instance, consultez les sections Utiliser des modèles TensorFlow avec Elastic Inference et Utiliser des modèles MXNet avec Elastic Inference.