Saltar al contenido principal

Amazon Bedrock

Evaluaciones de Amazon Bedrock

Evalúe modelos fundacionales (FM), incluidos los modelos personalizados e importados, para encontrar modelos que se ajusten a sus necesidades. También puede evaluar su flujo de trabajo de generación aumentada por recuperación (RAG) integral o de recuperación en las Bases de conocimiento de Amazon Bedrock.

Información general

Amazon Bedrock proporciona herramientas de evaluación para acelerar la adopción de aplicaciones de IA generativa. Evalúe, compare y seleccione el FM para su caso de uso con la evaluación del modelo. Prepare sus aplicaciones de RAG para la producción, ya sea que estén creadas en las Bases de conocimiento de Amazon Bedrock o en sus propios sistemas de RAG personalizados, mediante la evaluación de las funciones de recuperación o recuperación y generación.

Missing alt text value

Tipos de evaluación

Utilice un modelo de lenguaje de gran tamaño (LLM) como juez para evaluar los resultados del modelo mediante sus conjuntos de datos de peticiones personalizadas con métricas como la exactitud, la integridad y la nocividad.

Evalúe los resultados del modelo a través de algoritmos y métricas tradicionales del lenguaje natural, como BERT Score, F1 y otras técnicas de coincidencia exacta, mediante conjuntos de datos de peticiones integrados o mediante sus propios conjuntos.

Evalúe los resultados del modelo con su propio personal o haga que AWS administre las evaluaciones de las respuestas a sus conjuntos de datos de peticiones personalizadas con métricas integradas o personalizadas.

Evalúe la calidad de recuperación del sistema de RAG personalizado o de las Bases de conocimiento de Amazon Bedrock con peticiones y métricas propias, como la adecuación y la cobertura del contexto.

Evalúe el contenido generado en el flujo de trabajo integral de RAG, ya sea desde una canalización personalizada de RAG o desde las Bases de conocimiento de Amazon Bedrock. Use peticiones y métricas propias, como la fidelidad (detección de alucinaciones), la exactitud y la integridad.

Cómo evaluar íntegramente el flujo de trabajo de RAG

Utilice las evaluaciones de recuperación y generación para evaluar la capacidad de RAG integral de su aplicación. Asegúrese de que el contenido generado sea correcto y completo, limite las alucinaciones y respete los principios de la IA responsable. Evalúe el rendimiento de una base de conocimiento de Bedrock o use sus propias respuestas de inferencia de su sistema de RAG personalizado. Seleccione un LLM para usarlo como juez de sus bases de conocimientos de Amazon Bedrock o sus resultados personalizados de RAG, cargue su conjunto de datos y elija las métricas más relevantes para la evaluación.
Missing alt text value

Cómo asegurar la recuperación completa y pertinente de su sistema de RAG

Utilice las evaluaciones de recuperación de RAG para evaluar la configuración de almacenamiento y recuperación de sus bases de conocimiento de Amazon Bedrock o su sistema de RAG personalizado. Asegúrese de que el contenido recuperado sea pertinente y cubra toda la consulta del usuario. Seleccione un LLM para usarlo como juez, elija una base de conocimiento de Bedrock para evaluar o incluya las recuperaciones del sistema de RAG personalizado en su conjunto de datos de peticiones y seleccione las métricas.
Missing alt text value

Cómo evaluar los modelos fundacionales para seleccionar el que mejor se adapte a su caso de uso

La evaluación del modelo de Amazon Bedrock permite utilizar evaluaciones automáticas y humanas para seleccionar los modelos fundacionales (FM) para un caso de uso específico. La evaluación automática (mediante programación) del modelo utiliza conjuntos de datos seleccionados y personalizados y proporciona métricas predefinidas que incluyen la precisión, la solidez y la toxicidad. En el caso de las métricas subjetivas, puede utilizar Amazon Bedrock para configurar un flujo de trabajo de evaluación humana en unos pocos pasos. Con las evaluaciones humanas, puede traer sus propios conjuntos de datos y definir métricas personalizadas, como la adecuación, el estilo y la alineación con la voz de la marca. Los flujos de trabajo de evaluación humana pueden llevarse a cabo con sus propios empleados como revisores o mediante un equipo administrado por AWS para que lleve a cabo la evaluación humana, en cuyo caso AWS contrata a evaluadores cualificados y administra todo el flujo de trabajo en su nombre. También puede usar un LLM como juez para proporcionar evaluaciones de alta calidad sobre su conjunto de datos con métricas como la corrección, la integridad y la fidelidad (alucinaciones), así como métricas de IA responsable, como el rechazo a la respuesta y la nocividad. Puede evaluar los modelos de Bedrock y cualquier otro modelo en cualquier lugar con sus propias respuestas de inferencia en su conjunto de datos de peticiones de entrada.
Missing alt text value

Cómo comparar los resultados de varios trabajos de evaluación para tomar decisiones con mayor rapidez

Utilice la característica de comparación en las evaluaciones para ver los resultados de cualquier cambio que haya efectuado en las peticiones, los modelos que se están evaluando, los sistemas de RAG personalizados o las Bases de conocimiento de Bedrock.
Missing alt text value