Publié le: Nov 28, 2018
AWS Inferentia est une puce d'inférence de machine learning, conçue sur mesure par AWS pour offrir des performances d'inférence à haut débit et à faible temps de latence à un coût extrêmement bas. AWS Inferentia prendra en charge les frameworks de deep learning TensorFlow, Apache MXNet et PyTorch, ainsi que les modèles utilisant le format ONNX.
AWS Inferentia fournit des centaines de débits d'inférence TOPS (tera opérations par seconde) pour permettre aux modèles complexes de faire des prédictions rapides. Pour encore plus de performances, plusieurs puces AWS Inferentia peuvent être utilisées ensemble pour générer des débits de milliers de TOPS.
L’utilisation d’AWS Inferentia sera disponible avec Amazon SageMaker, Amazon EC2 et Amazon Elastic Inference. Pour plus d'informations sur AWS Inferentia, consultez la page web.