Publié le: Nov 12, 2021

Aujourd'hui, nous sommes ravis d'annoncer NVIDIA Triton™ Inference Server on Amazon SageMaker qui permet aux clients qui choisissent NVIDIA Triton comme serveur de modèle d'utiliser leurs conteneurs et de les déployer à grande échelle dans SageMaker. 

NVIDIA Triton est un serveur de modèles open source qui exécute des modèles ML entraînés à partir de plusieurs cadres ML, dont PyTorch, TensorFlow, XGBoost et ONNX. Triton est un serveur extensible auquel les développeurs peuvent ajouter de nouveaux front-ends qui peuvent recevoir des demandes dans des formats spécifiques, et de nouveaux back-ends qui peuvent gérer des temps d'exécution de modèles supplémentaires. AWS a travaillé en étroite collaboration avec NVIDIA pour ajouter un nouveau front-end Triton compatible avec les conteneurs hébergés SageMaker et un nouveau back-end compatible avec les modèles compilés SageMaker Neo. Par conséquent, les clients peuvent facilement créer un conteneur personnalisé qui inclut leur modèle avec Triton et l'apporter à SageMaker. SageMaker Inference traitera les demandes et mettra automatiquement le conteneur à l'échelle lorsque l'utilisation augmentera, ce qui facilitera le déploiement de modèles avec Triton sur AWS.

La prise en charge de NVIDIA Triton™ Inference Server dans Amazon SageMaker est disponible dans toutes les régions où Amazon SageMaker est disponible sans coût supplémentaire pour le conteneur Triton Inference Server. Consultez le blogue et la documentation pour en savoir plus.