Amazon SageMaker Clarify

Evalúe los modelos y explique sus predicciones

¿Qué es Amazon SageMaker Clarify?

Amazon SageMaker Clarify proporciona herramientas diseñadas específicamente para obtener más información sobre sus modelos y datos de machine learning, en función de métricas como la precisión, la solidez, la toxicidad y el sesgo para mejorar la calidad del modelo y respaldar la iniciativa de IA responsable. Con el auge de la IA generativa, los científicos de datos y los ingenieros de ML pueden aprovechar los modelos fundacionales (FM) disponibles públicamente para acelerar la comercialización. Para eliminar la pesada tarea de evaluar y seleccionar el FM adecuado para su caso de uso, Amazon SageMaker Clarify admite la evaluación de FM para ayudarlo a evaluar, comparar y seleccionar rápidamente el mejor FM para su caso de uso en función de una variedad de criterios en diferentes tareas en cuestión de minutos. Le permite adoptar FM más rápido y con confianza. Para los modelos tabulares, de visión artificial y de series temporales, SageMaker Clarify proporciona la explicabilidad del modelo durante el desarrollo del modelo o el despliegue posterior a él. Puede utilizar los informes de sesgo y explicabilidad para identificar posibles problemas y, por lo tanto, dirigir los esfuerzos para mejorar la precisión, eliminar los sesgos y aumentar el rendimiento.

Beneficios de SageMaker Clarify

Evalúe automáticamente los FM para su caso de uso de IA generativa con métricas como la precisión, la solidez y la toxicidad para respaldar su iniciativa de IA responsable. Para obtener criterios o contenido matizado que requiera un juicio humano sofisticado, puede optar por aprovechar su propio personal o utilizar personal proporcionado por AWS para revisar las respuestas de los modelos.
Explique cómo las características de entrada contribuyen a las predicciones del modelo durante el desarrollo y la inferencia del modelo. Evalúe su FM durante la personalización mediante las evaluaciones automáticas y basadas en humanos.
Genere métricas, informes y ejemplos fáciles de entender a lo largo del flujo de trabajo de personalización de FM y MLOps.
Detecte posibles sesgos y otros riesgos, según lo prescrito en directrices como la ISO 42001, durante la preparación de los datos, la personalización del modelo y en los modelos implementados.

Evalúe los modelos básicos

Asistente de evaluación e informes

Asistente de evaluación e informes

Para iniciar una evaluación, seleccione el modelo, la tarea y el tipo de evaluación: informes automáticos o humanos. Aproveche los resultados de la evaluación para seleccionar el mejor modelo para su caso de uso y cuantificar el impacto de sus técnicas de personalización de modelos, como la ingeniería de peticiones, el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), la generación aumentada de recuperación (RAG) y los ajustes de precisión supervisados (SFT). Los informes de evaluación resumen las puntuaciones en múltiples dimensiones, lo que permite hacer comparaciones y tomar decisiones con rapidez. Los informes más detallados proporcionan ejemplos de los resultados del modelo con la puntuación más alta y más baja, lo que permite que se centre en dónde debe optimizar aún más.
Personalización

Personalización

Empiece rápidamente con conjuntos de datos seleccionados, como Crows-pairs, TriviaQA y WikiText, y algoritmos seleccionados, como Bert-Score, Rouge y F1. Puede personalizar sus propios conjuntos de datos de solicitudes y algoritmos de puntuación específicos para su aplicación de IA generativa. La evaluación automática también está disponible como biblioteca de código abierto en GitHub para que pueda ejecutarla en cualquier lugar. Los cuadernos de ejemplo muestran cómo ejecutar la evaluación de manera programática para cualquier FM, incluidos los modelos que no están alojados en AWS, y cómo integrar las evaluaciones de los FM con los MLOps de SageMaker y las herramientas de gobernanza, como las canalizaciones de SageMaker, el registro de modelos de SageMaker y las tarjetas de modelos de SageMaker.
Evaluaciones basadas en humanos

Evaluaciones basadas en humanos

Algunos criterios de evaluación son matizados o subjetivos y requieren el juicio humano para evaluarlos. Además de las evaluaciones automatizadas basadas en métricas, puede pedir a las personas (ya sean sus propios empleados o un equipo de evaluación administrado por AWS) que evalúen las salidas del modelo en aspectos como la utilidad, el tono y la adhesión a la voz de la marca. Los evaluadores humanos también pueden comprobar la coherencia con las directrices, la nomenclatura y la voz de la marca específicas de la empresa. Configure instrucciones personalizadas para dar instrucciones a su equipo de evaluación sobre cómo evaluar las solicitudes, por ejemplo, clasificándolas o indicando los pulgares hacia arriba o hacia abajo.
Evaluaciones de calidad de modelos

Evaluaciones de calidad de modelos

Evalúe su FM para determinar si proporciona respuestas de gran calidad para su tarea específica de IA generativa mediante evaluaciones automáticas o humanas. Evalúe la precisión del modelo con algoritmos de evaluación específicos, como Bert Score, Rouge y F1, diseñados para tareas específicas de IA generativa, como el resumen, la respuesta a preguntas (Q&A) y la clasificación. Compruebe la solidez semántica de la salida de su FM cuando se hagan solicitudes con alteraciones en las entradas que preserven la semántica, como ButterFingers, mayúsculas aleatorias y la eliminación o el agregado de espacios en blanco.
Evaluaciones de responsabilidad de modelos

Evaluaciones de responsabilidad de modelos

Evalúe el riesgo de que su FM codifique estereotipos según las categorías de raza o color, género o identidad de género, orientación sexual, religión, edad, nacionalidad, discapacidad, apariencia física y estatus socio-económico mediante evaluaciones automáticas o humanas. También puede evaluar el riesgo de contenido tóxico. Estas evaluaciones se pueden aplicar a cualquier tarea que implique la generación de contenido, incluida la generación abierta, el resumen y la respuesta a preguntas.

Predicciones de modelos