Las bases de conocimiento de Amazon Bedrock ahora admiten el streaming de respuestas

Publicado en: 1 de dic de 2024

Las bases de conocimiento de Amazon Bedrock ofrecen flujos de trabajo de generación aumentada de recuperación (RAG) de extremo a extremo y completamente administrados para crear aplicaciones de GenAI personalizadas, seguras, de baja latencia y de alta precisión mediante la incorporación de información contextual de los orígenes de datos de su empresa. Hoy anunciamos la compatibilidad de la API RetrieveAndGenerateStream en las bases de conocimiento de Bedrock. Esta nueva API de streaming permite que los clientes de las bases de conocimiento de Bedrock reciban una respuesta a medida que la genera el modelo de lenguaje grande (LLM), en lugar de tener que esperar a recibir la respuesta completa.

El flujo de trabajo de RAG incluye varios pasos, que incluyen la consulta del almacén de datos, la recopilación del contexto relevante y, luego, el envío de la consulta a un LLM para resumir las respuestas. Este paso final de la generación de la respuesta podría tardar unos segundos, según la latencia del modelo subyacente utilizado en la generación de la respuesta. Para reducir esta latencia a la hora de crear aplicaciones sensibles a la latencia, ahora ofrecemos la API RetrieveAndGenerateStream, que proporciona la respuesta como un flujo de streaming a medida que la genera el modelo. Esto se traduce en una latencia reducida para la primera respuesta y proporciona a los usuarios una experiencia más fluida y receptiva al interactuar con las bases de conocimiento de Bedrock.

Esta nueva capacidad se admite actualmente en todas las regiones existentes de la base de conocimiento de Amazon Bedrock. Para obtener más información, consulte la documentación.