El LLM como juez de la evaluación del modelo de Amazon Bedrock ya está disponible de forma general

Publicado en: 20 de mar de 2025

La capacidad de LLM como juez de la evaluación del modelo de Amazon Bedrock ya está disponible de forma general. La evaluación del modelo de Amazon Bedrock le permite probar, comparar y seleccionar los modelos adecuados para su caso de uso. Puede elegir un LLM como juez entre varios disponibles en Bedrock para asegurarse de tener la combinación correcta de modelos evaluadores y modelos que se están evaluando. Puede seleccionar métricas de calidad, como la corrección, la integridad y el estilo y tono profesionales, así como métricas de IA responsable, por ejemplo la nocividad y el rechazo de respuestas. Puede evaluar todos los modelos disponibles en Amazon Bedrock, incluidos los modelos sin servidor, los modelos de Bedrock Marketplace compatibles con la API Converse, los modelos personalizados y destilados, los modelos importados y los enrutadores de modelos. También puede comparar los resultados entre los trabajos de evaluación.

*Novedad: ¡Más flexibilidad!* Hoy puede evaluar cualquier modelo o sistema alojado en cualquier lugar. Para ello, incorpore las respuestas de inferencia que ya ha obtenido al conjunto de datos de peticiones de entrada para el trabajo de evaluación (“use sus respuestas de inferencia”). Estas respuestas pueden proceder de un modelo de Amazon Bedrock o de cualquier modelo o aplicación alojada fuera de Amazon Bedrock. De este modo, es posible evitar llamar a un modelo de Amazon Bedrock en el trabajo de evaluación e incorporar todos los pasos intermedios de su solicitud en sus respuestas finales.

Con un LLM como juez, puede obtener una calidad de evaluación similar a la humana a un costo menor y, al mismo tiempo, ahorrar semanas.

Para obtener más información, visite la página de evaluaciones y la documentación de Amazon Bedrock. Para empezar, inicie sesión en la Consola de AWS o utilice las API de Amazon Bedrock.