Cerrar
Todas las características
Piloto automático
Clarify
Data Wrangler
Despliegue
Administrador de periféricos
Experimentos
Almacén de características
HyperPod
Gobernanza de ML
MLOps
Notebooks
Ground Truth
JumpStart
Canalizaciones
Studio Lab
Formación
¿Qué es Amazon SageMaker Clarify?
Beneficios de SageMaker Clarify
Evalúe los modelos básicos
Asistente de evaluación e informes
Para iniciar una evaluación, seleccione el modelo, la tarea y el tipo de evaluación: informes automáticos o humanos. Aproveche los resultados de la evaluación para seleccionar el mejor modelo para su caso de uso y cuantificar el impacto de sus técnicas de personalización de modelos, como la ingeniería de peticiones, el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), la generación aumentada de recuperación (RAG) y los ajustes de precisión supervisados (SFT). Los informes de evaluación resumen las puntuaciones en múltiples dimensiones, lo que permite hacer comparaciones y tomar decisiones con rapidez. Los informes más detallados proporcionan ejemplos de los resultados del modelo con la puntuación más alta y más baja, lo que permite que se centre en dónde debe optimizar aún más.
Personalización
Empiece rápidamente con conjuntos de datos seleccionados, como Crows-pairs, TriviaQA y WikiText, y algoritmos seleccionados, como Bert-Score, Rouge y F1. Puede personalizar sus propios conjuntos de datos de solicitudes y algoritmos de puntuación específicos para su aplicación de IA generativa. La evaluación automática también está disponible como biblioteca de código abierto en GitHub para que pueda ejecutarla en cualquier lugar. Los cuadernos de ejemplo muestran cómo ejecutar la evaluación de manera programática para cualquier FM, incluidos los modelos que no están alojados en AWS, y cómo integrar las evaluaciones de los FM con los MLOps de SageMaker y las herramientas de gobernanza, como las canalizaciones de SageMaker, el registro de modelos de SageMaker y las tarjetas de modelos de SageMaker.
Evaluaciones basadas en humanos
Algunos criterios de evaluación son matizados o subjetivos y requieren el juicio humano para evaluarlos. Además de las evaluaciones automatizadas basadas en métricas, puede pedir a las personas (ya sean sus propios empleados o un equipo de evaluación administrado por AWS) que evalúen las salidas del modelo en aspectos como la utilidad, el tono y la adhesión a la voz de la marca. Los evaluadores humanos también pueden comprobar la coherencia con las directrices, la nomenclatura y la voz de la marca específicas de la empresa. Configure instrucciones personalizadas para dar instrucciones a su equipo de evaluación sobre cómo evaluar las solicitudes, por ejemplo, clasificándolas o indicando los pulgares hacia arriba o hacia abajo.
Evaluaciones de calidad de modelos
Evalúe su FM para determinar si proporciona respuestas de gran calidad para su tarea específica de IA generativa mediante evaluaciones automáticas o humanas. Evalúe la precisión del modelo con algoritmos de evaluación específicos, como Bert Score, Rouge y F1, diseñados para tareas específicas de IA generativa, como el resumen, la respuesta a preguntas (Q&A) y la clasificación. Compruebe la solidez semántica de la salida de su FM cuando se hagan solicitudes con alteraciones en las entradas que preserven la semántica, como ButterFingers, mayúsculas aleatorias y la eliminación o el agregado de espacios en blanco.
Evaluaciones de responsabilidad de modelos
Evalúe el riesgo de que su FM codifique estereotipos según las categorías de raza o color, género o identidad de género, orientación sexual, religión, edad, nacionalidad, discapacidad, apariencia física y estatus socio-económico mediante evaluaciones automáticas o humanas. También puede evaluar el riesgo de contenido tóxico. Estas evaluaciones se pueden aplicar a cualquier tarea que implique la generación de contenido, incluida la generación abierta, el resumen y la respuesta a preguntas.
Predicciones de modelos
Explique las predicciones del modelo
SageMaker Clarify está integrado con Experimentos de SageMaker con el fin de proporcionar puntuaciones que detallan qué características contribuyeron más a la predicción del modelo en una entrada particular para modelos tabulares, de procesamiento de lenguaje natural (NLP) y de visión artificial. Para los conjuntos de datos tabulares, SageMaker Clarify también puede producir un gráfico de importancia de características agregadas que proporciona información sobre el proceso de predicción general del modelo. Estos detalles pueden ayudar a determinar si la entrada de un modelo en particular posee más influencia de la que debería tener en el comportamiento general del modelo.
Monitoreo de cambios del comportamiento en el modelo
Los cambios en los datos en vivo pueden exponer un nuevo comportamiento del modelo. Por ejemplo, un modelo de predicción del riesgo crediticio formado en los datos de una región geográfica podría cambiar la importancia que asigna a varias características cuando se aplica a los datos de otra región. SageMaker Clarify está integrado con el Monitor de modelos de SageMaker para notificarle mediante sistemas de alerta como CloudWatch si la importancia de las características de entrada cambia y provoca un cambio en el comportamiento del modelo.