Amazon SageMaker Clarify

Evalúe los modelos y explique sus predicciones

¿Qué es Amazon SageMaker Clarify?

Beneficios de SageMaker Clarify

Evalúe automáticamente los FM para su caso de uso de IA generativa con métricas como la precisión, la solidez y la toxicidad para respaldar su iniciativa de IA responsable. Para obtener criterios o contenido matizado que requiera un juicio humano sofisticado, puede optar por aprovechar su propio personal o utilizar personal proporcionado por AWS para revisar las respuestas de los modelos.
Explique cómo las características de entrada contribuyen a las predicciones del modelo durante el desarrollo y la inferencia del modelo. Evalúe su FM durante la personalización mediante las evaluaciones automáticas y basadas en humanos.
Genere métricas, informes y ejemplos fáciles de entender a lo largo del flujo de trabajo de personalización de FM y MLOps.
Detecte posibles sesgos y otros riesgos, según lo prescrito en directrices como la ISO 42001, durante la preparación de los datos, la personalización del modelo y en los modelos implementados.

Evalúe los modelos básicos

Asistente de evaluación e informes

Para iniciar una evaluación, seleccione el modelo, la tarea y el tipo de evaluación: informes automáticos o humanos. Aproveche los resultados de la evaluación para seleccionar el mejor modelo para su caso de uso y cuantificar el impacto de sus técnicas de personalización de modelos, como la ingeniería de peticiones, el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), la generación aumentada de recuperación (RAG) y los ajustes de precisión supervisados (SFT). Los informes de evaluación resumen las puntuaciones en múltiples dimensiones, lo que permite hacer comparaciones y tomar decisiones con rapidez. Los informes más detallados proporcionan ejemplos de los resultados del modelo con la puntuación más alta y más baja, lo que permite que se centre en dónde debe optimizar aún más.
Asistente de evaluación e informes

Personalización

Empiece rápidamente con conjuntos de datos seleccionados, como Crows-pairs, TriviaQA y WikiText, y algoritmos seleccionados, como Bert-Score, Rouge y F1. Puede personalizar sus propios conjuntos de datos de solicitudes y algoritmos de puntuación específicos para su aplicación de IA generativa. La evaluación automática también está disponible como biblioteca de código abierto en GitHub para que pueda ejecutarla en cualquier lugar. Los cuadernos de ejemplo muestran cómo ejecutar la evaluación de manera programática para cualquier FM, incluidos los modelos que no están alojados en AWS, y cómo integrar las evaluaciones de los FM con los MLOps de SageMaker y las herramientas de gobernanza, como las canalizaciones de SageMaker, el registro de modelos de SageMaker y las tarjetas de modelos de SageMaker.
Personalización

Evaluaciones basadas en humanos

Algunos criterios de evaluación son matizados o subjetivos y requieren el juicio humano para evaluarlos. Además de las evaluaciones automatizadas basadas en métricas, puede pedir a las personas (ya sean sus propios empleados o un equipo de evaluación administrado por AWS) que evalúen las salidas del modelo en aspectos como la utilidad, el tono y la adhesión a la voz de la marca. Los evaluadores humanos también pueden comprobar la coherencia con las directrices, la nomenclatura y la voz de la marca específicas de la empresa. Configure instrucciones personalizadas para dar instrucciones a su equipo de evaluación sobre cómo evaluar las solicitudes, por ejemplo, clasificándolas o indicando los pulgares hacia arriba o hacia abajo.
Evaluaciones basadas en humanos

Evaluaciones de calidad de modelos

Evalúe su FM para determinar si proporciona respuestas de gran calidad para su tarea específica de IA generativa mediante evaluaciones automáticas o humanas. Evalúe la precisión del modelo con algoritmos de evaluación específicos, como Bert Score, Rouge y F1, diseñados para tareas específicas de IA generativa, como el resumen, la respuesta a preguntas (Q&A) y la clasificación. Compruebe la solidez semántica de la salida de su FM cuando se hagan solicitudes con alteraciones en las entradas que preserven la semántica, como ButterFingers, mayúsculas aleatorias y la eliminación o el agregado de espacios en blanco.
Evaluaciones de calidad de modelos

Evaluaciones de responsabilidad de modelos

Evalúe el riesgo de que su FM codifique estereotipos según las categorías de raza o color, género o identidad de género, orientación sexual, religión, edad, nacionalidad, discapacidad, apariencia física y estatus socio-económico mediante evaluaciones automáticas o humanas. También puede evaluar el riesgo de contenido tóxico. Estas evaluaciones se pueden aplicar a cualquier tarea que implique la generación de contenido, incluida la generación abierta, el resumen y la respuesta a preguntas.

Evaluaciones de responsabilidad de modelos

Predicciones de modelos

Explique las predicciones del modelo

SageMaker Clarify está integrado con Experimentos de SageMaker con el fin de proporcionar puntuaciones que detallan qué características contribuyeron más a la predicción del modelo en una entrada particular para modelos tabulares, de procesamiento de lenguaje natural (NLP) y de visión artificial. Para los conjuntos de datos tabulares, SageMaker Clarify también puede producir un gráfico de importancia de características agregadas que proporciona información sobre el proceso de predicción general del modelo. Estos detalles pueden ayudar a determinar si la entrada de un modelo en particular posee más influencia de la que debería tener en el comportamiento general del modelo.
Captura de pantalla de un gráfico de importancia de características para un modelo formado en SageMaker Experiments

Monitoreo de cambios del comportamiento en el modelo

Los cambios en los datos en vivo pueden exponer un nuevo comportamiento del modelo. Por ejemplo, un modelo de predicción del riesgo crediticio formado en los datos de una región geográfica podría cambiar la importancia que asigna a varias características cuando se aplica a los datos de otra región. SageMaker Clarify está integrado con el Monitor de modelos de SageMaker para notificarle mediante sistemas de alerta como CloudWatch si la importancia de las características de entrada cambia y provoca un cambio en el comportamiento del modelo.
Captura de pantalla del monitoreo de importancia de características en SageMaker Model Monitor