Publié le: Mar 16, 2021
Amazon SageMaker prend désormais en charge le déploiement de conteneurs multiples sur des points de terminaison en temps réel pour réduire la latence d'inférences et les invoquer indépendamment pour chaque demande. Cette nouvelle capacité vous permet d'exécuter jusqu'à cinq modèles et frameworks de machine learning (ML) différents sur un seul point de terminaison, et réaliser ainsi des économies de coûts pouvant atteindre 80 %. Cette option convient parfaitement aux cas où de multiples modèles ML ont des besoins similaires en ressources et où le trafic de modèles individuels n'est pas suffisant pour utiliser la capacité totale des instances du point de terminaison. Par exemple, si vous possédez un jeu de modèles ML qui sont invoqués rarement ou à des moments différents, ou si vous possédez de points de terminaison dev/test.
Pour utiliser cette fonction, vous devez préciser la liste des conteneurs conjointement avec les modèles entraînés qui doivent être déployés sur un point de terminaison, et sélectionner le mode d'exécution d'inférences « Direct », qui indique à SageMaker que l'accès aux modèles se fera de façon indépendante. Pour réaliser une inférence par rapport à un modèle spécifique, invoquez le point de terminaison et précisez le nom du conteneur dans l'en-tête de la demande. Vous pouvez sécuriser les demandes d'inférence par rapport à chaque conteneur dans le mode d'invocation Direct en spécifiant des clés de condition et des métriques par conteneur dans Amazon CloudWatch.
Vous pouvez également exécuter les conteneurs sur des points de terminaison multi-conteneurs séquentiellement (c.-à-d. des pipelines d'inférences) pour chaque inférence si vous voulez pré-/post traiter des demandes lorsque vous réalisez des inférences, ou si vous voulez exécuter un jeu de modèles ML séquentiellement. Cette capacité est déjà prise en charge en tant que comportement par défaut des points de terminaison multi-conteneurs. Autrement, elle peut être activée en paramétrant le mode d'exécution d'inférences sur « Série ».
Des points de terminaison multi-conteneurs sont disponibles dans toutes les régions AWS où Amazon SageMaker est déjà disponible, à savoir l'Amérique du Nord, l'Amérique du Sud, l'Europe, l'Asie-Pacifique, l'Afrique du Sud et le Moyen-Orient. Pour plus d'informations, consultez la documentation.