Annonce du routage des sessions permanentes pour Amazon SageMaker Inference
Aujourd'hui, nous annonçons la disponibilité du routage de sessions permanentes sur Amazon SageMaker Inference pour aider les clients à améliorer les performances et l'expérience utilisateur de leurs applications d'IA générative en tirant parti de leurs informations précédemment traitées. Amazon SageMaker simplifie le déploiement de modèles de ML, y compris des modèles de fondation (FM), afin de répondre aux demandes d’inférence au meilleur rapport prix/performances, quel que soit le cas d’utilisation.
En activant les sessions permanentes, toutes les demandes relatives à la même session seront acheminées vers la même instance, ce qui permettra à votre application de machine learning de réutiliser les informations précédemment traitées et ainsi, de réduire la latence et d'améliorer l'expérience utilisateur. Cela est particulièrement utile lorsque les clients souhaitent utiliser de grandes charges de données ou ont besoin d'expériences interactives fluides. En tirant parti de leurs précédentes demandes d'inférence, les clients peuvent désormais tirer parti de cette fonctionnalité pour créer des applications d'IA innovantes tenant compte de l'état sur SageMaker. Pour ce faire, les clients devront créer un identifiant de session avec leur première demande, puis utiliser cet identifiant de session pour indiquer que SageMaker doit acheminer toutes les demandes suivantes vers la même instance. Les sessions peuvent également être supprimées une fois terminées afin de libérer des ressources pour de nouvelles sessions.
Cette fonctionnalité est disponible dans toutes les régions où SageMaker est proposé. Pour en savoir plus sur le déploiement de modèles sur SageMaker, cliquez ici et apprenez-en davantage sur cette fonctionnalité dans notre documentation.