Amazon Bedrock Knowledge Bases prend désormais en charge les réponses en streaming

Publié le: 1 déc. 2024

Amazon Bedrock Knowledge Bases propose des flux de travail de génération à enrichissement contextuel (RAG) entièrement gérés de bout en bout pour créer des applications GenAI extrêmement précises, à faible latence, sécurisées et personnalisées en incorporant des informations contextuelles provenant des sources de données de votre entreprise. Aujourd'hui, nous annonçons la prise en charge de l'API RetrieveAndGenerateStream dans Bedrock Knowledge Bases. Cette nouvelle API de streaming permet aux clients de Bedrock Knowledge Base de recevoir la réponse telle qu'elle est générée par le grand modèle de langage (LLM), plutôt que d'attendre la réponse complète.

Le flux de travail RAG comporte plusieurs étapes, notamment l'interrogation de l’entrepôt de données, la collecte du contexte pertinent, puis l'envoi de la requête à un LLM pour récapituler les réponses. Cette dernière étape de génération de réponse peut prendre quelques secondes, suivant la latence du modèle sous-jacent utilisé pour générer celle-ci. Pour réduire cette latence lors de la création d'applications sensibles à la latence, nous proposons désormais l'API RetrieveAndGenerateStream qui fournit la réponse sous forme de flux lorsqu'elle est générée par le modèle. Il en résulte une latence réduite pour la première réponse, offrant aux utilisateurs une expérience plus fluide et réactive lorsqu'ils interagissent avec Bedrock Knowledge Bases.

Cette nouvelle fonctionnalité est actuellement prise en charge dans toutes les régions proposant actuellement Amazon Bedrock Knowledge Bases. Pour en savoir plus, consultez la documentation.