La recuperación multimodal de las bases de conocimiento de Bedrock ya está disponible de forma general
Hoy, AWS anuncia la disponibilidad general de la recuperación multimodal en las bases de conocimiento de Bedrock. Las bases de conocimiento de Amazon Bedrock ofrecen flujos de trabajo de generación aumentada de recuperación (RAG) de extremo a extremo y administrados para crear aplicaciones de AI Generativa personalizadas, de baja latencia y de precisión mediante la incorporación de información contextual de los orígenes de datos de su empresa. La compatibilidad con la recuperación multimodal en las bases de conocimiento permite a los desarrolladores crear aplicaciones de búsqueda y respuesta a preguntas impulsadas por IA que funcionan en archivos de texto, imágenes, audio y vídeo. Por ejemplo, un usuario puede pedirle a su asistente “muéstrame las proyecciones del primer trimestre para Amazon Bedrock” y las bases de conocimiento de Bedrock recuperará el texto relevante de documentos, gráficos, fragmentos de vídeo y audio relacionados con las proyecciones de ingresos de Bedrock, lo que permitirá al asistente generar respuestas más completas y detalladas para el usuario final. Anteriormente, los clientes solo podían buscar en documentos de texto e imágenes. Ahora pueden obtener información de todos los formatos de datos empresariales a través de un flujo de trabajo unificado y totalmente gestionado.
Las organizaciones luchan por extraer información de sus crecientes datos multimedia (vídeos, grabaciones de audio, imágenes y documentos) porque es complejo crear aplicaciones de IA que puedan buscar en estas diferentes modalidades. Como resultado, la información valiosa atrapada en terabytes de grabaciones de reuniones, vídeos de formación y documentación visual permanece inaccesible, lo que impide que las organizaciones tomen decisiones basadas en datos de forma rápida y precisa. Con la recuperación multimodal para las bases de conocimiento, los desarrolladores pueden ingerir contenido multimodal con un control total de las opciones de análisis, fragmentación, incrustación (por ejemplo, Amazon Nova multimodal) y almacenamiento vectorial. A partir de ahí, pueden enviar una consulta de texto o una imagen como entrada y obtener los segmentos de texto, imagen, audio y vídeo relevantes para generar una respuesta en sus aplicaciones de IA generativa mediante el modelo de lenguaje de gran tamaño (LLM) que elijan.
Para obtener más información sobre la creación de bases de conocimiento multimodales en Bedrock, consulte la documentación. La disponibilidad regional depende de las características seleccionadas para el soporte multimodal. Para obtener más información consulte la documentación.