Publicado en: Nov 29, 2023

Hoy, Amazon SageMaker Clarify anuncia una nueva capacidad para respaldar las evaluaciones del modelo fundacional (FM). Los clientes de AWS pueden comparar y seleccionar los FM en función de métricas como la precisión, la solidez, el sesgo y la toxicidad en cuestión de minutos.

En la actualidad, los clientes cuentan con una amplia gama de opciones a la hora de elegir una FM para impulsar sus aplicaciones de IA generativa y desean comparar estos modelos rápidamente para encontrar la mejor opción para su caso de uso. Para empezar a comparar modelos, los clientes primero pasan días identificando puntos de referencia relevantes, configurando herramientas de evaluación y realizando evaluaciones en cada modelo. Y con frecuencia reciben resultados que son difíciles de descifrar.

SageMaker Clarify ahora admite las evaluaciones de FM durante la selección del modelo y durante todo el flujo de trabajo de personalización del modelo. Los clientes comienzan con las evaluaciones de FM aprovechando conjuntos de datos puntuales seleccionados que están diseñados específicamente para tareas comunes, como la generación de texto abierto, el resumen, la respuesta a preguntas y la clasificación. Los clientes pueden ampliar la evaluación de FM con sus propios conjuntos de datos puntuales personalizados. Las evaluaciones humanas se pueden utilizar para dimensiones más subjetivas, como la creatividad y el estilo. Después de cada evaluación, los clientes reciben un informe de evaluación que resume los resultados en lenguaje natural e incluye visualizaciones y ejemplos. Los clientes pueden descargar todas las métricas e informes e integrarlos en sus flujos de trabajo de SageMaker ML.

Esta función está disponible en determinadas regiones en versión preliminar: Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), Asia-Pacífico (Tokio), Asia-Pacífico (Singapur), Europa (Fráncfort), Europa (Irlanda). Para obtener más información, consulte nuestra documentación y la página de precios.