Las evaluaciones de modelos y RAG de Amazon Bedrock ahora admiten métricas personalizadas

Publicado en: 17 de abr de 2025

Amazon Bedrock Evaluations le permite evaluar modelos básicos y sistemas de generación aumentada de recuperación (RAG), ya estén alojados en Amazon Bedrock o en implementaciones locales y multinube. Bedrock Evaluations ofrece evaluaciones realizadas por humanos, evaluaciones programáticas como BertScore, F1 y otras métricas de coincidencia exacta, así como un LLM como juez para la evaluación de modelos y RAG. Tanto para la evaluación de modelos como de RAG con LLM como juez, los clientes pueden elegir entre una amplia lista de métricas integradas, como la corrección, la integridad, la fidelidad (detección de alucinaciones), así como métricas de IA responsables, como el rechazo de respuestas, la nocividad y los estereotipos. Sin embargo, hay ocasiones en las que quieren definir estas métricas de manera diferente o crear nuevas métricas que sean relevantes para sus necesidades. Por ejemplo, los clientes pueden definir una métrica que evalúe la adhesión de la respuesta de una solicitud a la voz de su marca específica, o pueden querer clasificar las respuestas según una rúbrica categórica personalizada.

Ahora, las evaluaciones de Amazon Bedrock ofrecen a los clientes la posibilidad de crear y reutilizar métricas personalizadas para la evaluación de modelos y RAG con la tecnología de LLM como juez. Los clientes pueden escribir sus propias instrucciones para el juez, definir sus propias escalas de calificación categóricas o numéricas y usar variables integradas para introducir datos de su conjunto de datos o respuestas de IA generativa en la solicitud del juez durante el tiempo de ejecución para personalizar completamente el flujo de datos en sus evaluaciones. Los clientes pueden inspirarse para crear nuevas plantillas o rúbricas de solicitud de jueces con las plantillas de inicio rápido que se proporcionan o pueden crear las suyas propias desde cero.

Para empezar, visite la consola de Amazon Bedrock o utilice las API de Bedrock. Para obtener más información, consulte la guía del usuario.