Saltar al contenido principal

¿Qué son los modelos de IA generativa?

Los modelos de IA generativa tienen puntos fuertes y limitaciones. Según los requisitos de complejidad, rendimiento, privacidad y costo de su caso de uso, algunos modelos pueden ser una mejor opción que otros. Esta guía explora los factores a tener en cuenta y las mejores prácticas para seleccionar un modelo de IA generativa.

Los modelos de inteligencia artificial generativa pueden crear contenido de texto, imágenes, audio y vídeo original y significativo basándose en las entradas de lenguaje natural de los usuarios. Las organizaciones los utilizan para todo, desde alimentar los chatbots hasta crear plantillas de diseño y resolver problemas complejos de biología. Existen miles de modelos de IA propietarios y de código abierto, y a diario se lanzan nuevos modelos y versiones mejoradas.

A pesar de su flexibilidad y versatilidad, los modelos de IA generativa no son una solución general para todos los casos de uso. Los equipos de IA deben seleccionar y evaluar cuidadosamente el mejor modelo que optimice los costos y el rendimiento. La evaluación de los modelos es compleja. Los puntos de referencia populares, como Helm y la tabla de clasificación Hugging Face, solo proporcionan una visión general del rendimiento de un modelo de IA en particular en las tareas comunes del lenguaje natural. Los equipos de IA deben adoptar diferentes estrategias para evaluar la salida del modelo para la entrada de datos personalizada y, a continuación, seleccionar la que mejor se adapte a sus requisitos.

¿Cómo se evalúan los modelos de IA generativa para diferentes casos de uso?

Estos son algunos factores que debe tener en cuenta al elegir un modelo de IA adecuado para su caso de uso.

Modalidad

La modalidad se refiere al tipo de datos que procesa el modelo: incrustaciones, imágenes (visión) o texto. Algunos modelos son unimodales y pueden procesar de manera eficiente un único tipo de datos. Otros son multimodales y pueden integrar varios tipos de datos, pero pueden ser más adecuados para un tipo que para otros. Por ejemplo, modelos como Claude, Llama 3.1 o Titan Text G1 son adecuados para tareas basadas en texto, mientras que Stable Diffusion XL y Titan Image Generator v2 son más adecuados para tareas de visión. Del mismo modo, se prefiere el modelo Titan Multimodal Embeddings G1 para traducir cualquier imagen o texto de entrada en una incrustación que contenga el significado semántico tanto de la imagen como del texto en el mismo espacio semántico.

Tamaño del modelo

El tamaño del modelo es el número de parámetros o variables de configuración internos del modelo. Puede variar desde varios millones hasta más de 100 mil millones, y la mayoría de los modelos tienen entre 10 y 100 mil millones de parámetros. El tamaño del modelo define directamente la capacidad del modelo para aprender de los datos. Los modelos con más parámetros funcionan mejor porque pueden comprender en profundidad los datos nuevos. Sin embargo, son más caros de personalizar y operar.

Latencia de inferencia

La latencia de inferencia suele ser un problema en situaciones en tiempo real en las que los usuarios de las aplicaciones de IA pueden esperar respuestas inmediatas. Es el tiempo total que tarda un modelo en procesar la entrada y devolver la salida en función de la longitud de la entrada. Los modelos de IA generativa con arquitecturas complejas pueden tener velocidades de inferencia más lentas que los modelos más pequeños. Sin embargo, la latencia de inferencia varía según las peticiones esperadas y el rendimiento del modelo. Un mayor número de símbolos (como letras, signos de puntuación, etc.) en la entrada del usuario final también puede aumentar la latencia.

Ventana de contexto

La ventana de contexto del modelo de IA generativa es la cantidad de tokens que puede “recordar” para el contexto en un momento dado. Un modelo con una ventana de contexto más grande retiene más de la conversación anterior y proporciona respuestas más relevantes. Por lo tanto, se prefieren ventanas de contexto más grandes para tareas complejas, como resumir documentos largos o impulsar conversaciones de varios turnos.

Consideraciones de precios

Los costos de funcionamiento de los modelos incluyen los costos de uso de los modelos propietarios y los costos de computación y memoria. Los gastos operativos pueden variar de un modelo a otro en función de las cargas de trabajo. Comparar los costos con los beneficios garantiza que obtendrá el mejor valor por su inversión. Por ejemplo, la ejecución de Claude 2 o Command R+ implica tarifas basadas en el uso, ya que son modelos propietarios, mientras que la implementación de Llama 2 7B tiene costos computacionales más bajos. Sin embargo, si los modelos patentados proporcionan una precisión o eficiencia significativamente mejores para su tarea, su costo adicional podría estar justificado.

Calidad de respuesta

Puedes evaluar la calidad de respuesta de un modelo de IA mediante el uso de varias métricas, como

  • Precisión: con qué frecuencia las respuestas del modelo son correctas
  • Relevancia: cómo de apropiadas son las respuestas a la entrada dada. 
  • Robustez: cómo de bien maneja el modelo las entradas intencionalmente engañosas diseñadas para confundirlo.
  • Toxicidad: el porcentaje de contenido inapropiado o sesgos en los resultados del modelo.

Por lo general, las métricas se miden en función de una línea de base preconfigurada. Es una práctica recomendada evaluar la calidad de respuesta de algunos modelos diferentes en el mismo conjunto de datos de entrada y seleccionar el que proporcione la mayor calidad de respuesta.

¿Qué es el proceso de selección del modelo de IA generativa?

La selección del modelo de IA generativa primero requiere que determine los requisitos específicos de su aplicación de IA. Asegúrese de comprender las expectativas de los usuarios, los requisitos de procesamiento de datos, las consideraciones de implementación y otras sutilezas de su empresa e industria. Luego, puede eliminar los diferentes modelos de IA realizando pruebas de calidad hasta que encuentre el modelo que mejor se adapte a sus requisitos.

Paso 1: Preseleccionar la selección inicial del modelo

Comience el proceso preseleccionando alrededor de 20 modelos de los miles que existen que se ajustan a sus necesidades. Elegir entre modelos de código abierto y propietarios es la mitad del trabajo realizado. Una vez que lo haya determinado, puede realizar una preselección adicional evaluando los modelos en función de los criterios clave, como la modalidad, el tamaño del modelo, la ventana de contexto, etc., descritos en la sección anterior.

Modelos de IA generativa de código abierto frente a modelos de IA generativa patentados

Los modelos de código abierto ofrecen flexibilidad y permiten a los equipos refinar o volver a entrenar por completo el modelo con datos patentados. Esto puede ser particularmente valioso en industrias especializadas en las que los modelos de uso general no funcionan bien en casos de uso específicos. Por ejemplo, una gran compañía de seguros puede preferir entrenar un modelo de código abierto con datos personalizados en lugar de utilizar modelos propios dirigidos al sector financiero que no cumplen con sus requisitos específicos.

Sin embargo, los modelos de código abierto requieren consideraciones adicionales. Pueden introducir riesgos legales y de seguridad, obligando a las organizaciones a hacer cumplir sus propias medidas de cumplimiento y a examinar minuciosamente los términos de las licencias. Los modelos patentados, por otro lado, suelen ofrecer características de seguridad integradas, indemnización por los datos y los resultados de la capacitación y garantías de cumplimiento, lo que reduce la sobrecarga operativa para las empresas que priorizan la mitigación de riesgos.

Paso 2: Inspeccionar la salida y reducir aún más la lista

En este paso, su objetivo es identificar los 3 modelos de IA generativa más adecuados para su caso de uso. En primer lugar, identifique un subconjunto de peticiones de prueba que coincidan con su caso de uso. Luego, inspeccione visualmente la salida de cada modelo para ver las peticiones específicas. Busque las salidas con más detalles que mejor se adapten a su entrada. Seleccione los 3 principales que generan los resultados más relevantes, detallados y precisos.

Amazon SageMaker Clarify es el más adecuado para esta etapa. Evalúa automáticamente los FM para su caso de uso de IA generativa utilizando métricas como la precisión, la solidez y la toxicidad para respaldar su iniciativa de IA responsable.

Paso 3: Evaluación comparativa basada en casos de uso

Ahora puede evaluar los modelos de IA más seleccionados con más detalle en función de las peticiones y resultados predefinidos para su conjunto de datos de prueba específico. El factor clave aquí es tener un conjunto de datos de prueba completo que cubra todos los aspectos de su caso de uso con varias variaciones. También debe tener una salida ideal correspondiente para evaluar estadísticamente qué salida del modelo está más cerca de su salida ideal.

Amazon Bedrock proporciona herramientas de evaluación para evaluar, comparar y seleccionar el modelo de IA para su caso de uso con la evaluación del modelo.

Hay tres enfoques de evaluación que puede adoptar.

Programática

Evalúe los resultados del modelo a través de algoritmos y métricas tradicionales del lenguaje natural, como BERT Score, F1 y otras técnicas de coincidencia exacta. Amazon Bedrock le permite lograrlo mediante conjuntos de datos de peticiones integrados o puede traer los suyos propios.

Humanos informados

Consiga evaluadores humanos (miembros de su equipo, una muestra de usuarios finales o evaluadores profesionales de IA) para evaluar el resultado de los tres modelos en función de métricas de modelo predeterminadas. Pueden comparar manualmente las salidas con las salidas ideales o, si el caso de uso es demasiado amplio, pueden evaluar y marcar las salidas según su mejor criterio.
Con Amazon Bedrock, puede evaluar los resultados del modelo con su personal o hacer que AWS gestione las evaluaciones de las respuestas a conjuntos de datos de peticiones personalizadas con métricas como la relevancia, el estilo y la alineación con la voz de la marca o métricas integradas.

Otro modelo de IA como evaluador

En este enfoque, otro modelo de IA evalúa el resultado de los tres modelos de manera imparcial. Esto funciona mejor en los casos de uso en los que las salidas están bien definidas y su similitud con la salida ideal se puede medir estadísticamente. Amazon Bedrock le permite evaluar los resultados del modelo mediante otro modelo de IA en modo LLM como juez. Puedes usar sus conjuntos de datos de peticiones personalizadas con métricas como la corrección, la integridad y la nocividad, así como con métricas de IA responsable, como el rechazo de respuestas y la nocividad.

Paso 4: Selección final

Utilice los datos de la evaluación junto con el análisis de costos y rendimiento para elegir el modelo final. Con Amazon Bedrock, puede usar la característica de comparación en las evaluaciones para ver los resultados de cualquier cambio que haya realizado en las peticiones y en los modelos que se están evaluando. Vea todos sus análisis en un solo lugar y seleccione el modelo que proporcione el mejor equilibrio entre el rendimiento, el costo y los riesgos asociados, y utilice los recursos de manera eficiente.

La elección del modelo de IA generativa adecuado para su caso de uso requiere un enfoque estructurado que equilibre las capacidades técnicas, las necesidades empresariales y las restricciones operativas. La clave es alinear su decisión con los requisitos específicos de su caso de uso. Evalúe cuidadosamente los modelos en función de factores como la modalidad, el tamaño, las capacidades de procesamiento de datos y las consideraciones de implementación. En última instancia, el modelo correcto mejora la eficiencia y la innovación y proporciona una base escalable para los futuros avances impulsados por la IA en su organización.