La evaluación del modelo de Amazon Bedrock ahora incluye LLM-as-a-judge (LLM como juez) (versión preliminar)
La evaluación del modelo de Amazon Bedrock le permite probar, comparar y seleccionar los mejores modelos básicos para su caso de uso. Ahora puede usar una nueva función de evaluación: LLM-as-a-judge (LLM como juez) en versión preliminar. Esto le permite elegir la tecnología LLM-as-a-judge (LLM como juez) para asegurarse de tener la combinación correcta de modelos evaluadores y modelos que se están evaluando. Puede elegir entre varios LLM-as-a-judge (LLM como juez) disponibles en Amazon Bedrock. También puede seleccionar métricas de calidad seleccionadas, como la corrección, la integridad y el estilo y el tono profesionales, así como métricas de IA responsable, como la nocividad y el rechazo de respuestas. Ahora también puede usar su propio conjunto de datos de peticiones a fin de garantizar que la evaluación esté personalizada para sus datos, y puede comparar los resultados entre los trabajos de evaluación para tomar decisiones con mayor rapidez.
Anteriormente, podía elegir entre la evaluación del modelo basada en humanos y la evaluación automática con una coincidencia exacta de cadenas y otras métricas tradicionales de procesamiento de lenguaje natural (NLP). Estos métodos, aunque eran rápidos, no proporcionaron una correlación sólida con los evaluadores humanos. Ahora, con LLM-as-a-judge (LLM como juez), puede obtener una calidad de evaluación similar a la humana a un costo mucho menor que las evaluaciones completas basadas en humanos, a la vez que ahorra semanas de tiempo. Puede usar las métricas integradas para evaluar hechos objetivos o realizar evaluaciones subjetivas del estilo y el tono de escritura en su conjunto de datos.
Para obtener más información sobre la tecnología LLM-as-a-judge (LLM como juez) de evaluación del modelo de Amazon Bedrock, incluidas las regiones de AWS disponibles, lea el blog de noticias de AWS y visite la página de evaluaciones de Amazon Bedrock. Para empezar, inicie sesión en la Consola de administración de AWS o utilice las API de Amazon Bedrock.