Publié le: Sep 1, 2023
Les clients peuvent désormais diffuser en continu les réponses d'inférence au client lorsqu'ils utilisent Sagemaker Real-time Inference pour aider à créer des expériences interactives pour diverses applications d'IA génératives telles que les chatbots, les assistants virtuels et les générateurs de musique.
Avec les applications Gen-AI interactives telles que les chatbots, il est possible de lire la réponse mot par mot au fur et à mesure que le chatbot répond, et il n’y a plus à attendre la réponse complète. Pour ce type d’applications, il est particulièrement important de minimiser le délai de réponse à la première inférence pour créer des expériences interactives. Auparavant, SageMaker Endpoints attendait que la réponse d'inférence complète soit terminée avant de répondre de nouveau au client. Avec la diffusion en continu des réponses, des inférences partielles sont renvoyées en continu jusqu'à ce que la réponse d'inférence complète soit terminée.
Cette fonction est disponible dans toutes les régions commerciales où SageMaker est disponible.
Pour en savoir plus sur l'utilisation de la diffusion en continu des réponses et profiter d’exemples, consultez notre documentation sur la référence d’API, l'obtention de la diffusion en continu des réponses et la manière dont les conteneurs doivent répondre, ainsi que notre blog ici.