¿Qué es el aprendizaje por transferencia?

El aprendizaje por transferencia (TL) es una técnica de machine learning (ML) en la que un modelo previamente entrenado para una tarea se ajusta con precisión para una nueva tarea relacionada. El entrenamiento de un nuevo modelo de ML es un proceso largo e intensivo que requiere una gran cantidad de datos, potencia informática y varias iteraciones antes de que esté listo para la producción. En su lugar, las organizaciones utilizan la TL para volver a entrenar a los modelos existentes en tareas relacionadas con datos nuevos. Por ejemplo, si un modelo de machine learning puede identificar imágenes de perros, puede entrenarse para identificar gatos mediante un conjunto de imágenes más pequeño que resalte las diferencias de características entre perros y gatos.

¿Cuáles son los beneficios del aprendizaje por transferencia?

La TL ofrece varios de los siguientes beneficios a los investigadores que crean aplicaciones de ML.

Eficiencia mejorada

El entrenamiento de los modelos de ML lleva tiempo, ya que generan conocimiento e identifican patrones. También requiere un gran conjunto de datos y es costoso desde el punto de vista informático. En el TL, un modelo previamente entrenado conserva los conocimientos fundamentales de las tareas, las características, las ponderaciones y las funciones, lo que le permite adaptarse a las nuevas tareas con mayor rapidez. Puede utilizar un conjunto de datos mucho más pequeño y menos recursos y, al mismo tiempo, obtener mejores resultados. 

Mayor accesibilidad

La creación de redes neuronales de aprendizaje profundo requiere grandes volúmenes de datos, recursos, potencia informática y tiempo. El TL supera estas barreras a la creación, lo que permite a las organizaciones adoptar el ML para casos de uso personalizados. Puede adaptar los modelos existentes a sus necesidades por una fracción del costo. Por ejemplo, con un modelo de reconocimiento de imágenes previamente entrenado, puede crear modelos para el análisis de imágenes médicas, la monitorización ambiental o el reconocimiento facial con ajustes mínimos.

Mejor rendimiento

Los modelos desarrollados mediante el TL suelen demostrar una mayor solidez en entornos diversos y desafiantes. Manejan mejor la variabilidad y el ruido del mundo real, ya que han estado expuestos a una amplia gama de escenarios en su entrenamiento inicial. Ofrecen mejores resultados y se adaptan a condiciones impredecibles de forma más flexible.

¿Cuáles son las diferentes estrategias de aprendizaje por transferencia?

La estrategia que utilice para facilitar el aprendizaje por transferencia (TL) dependerá del dominio del modelo que esté creando, de la tarea que deba completar y de la disponibilidad de los datos de entrenamiento.

Aprendizaje por transferencia transductiva

El aprendizaje por transferencia transductiva implica transferir conocimientos de un dominio fuente específico a un dominio objetivo diferente pero relacionado, con el enfoque principal en el dominio objetivo. Resulta especialmente útil cuando hay pocos datos o ninguno etiquetado del dominio de destino.

El aprendizaje por transferencia transductiva le pide al modelo que haga predicciones sobre los datos objetivo utilizando los conocimientos adquiridos previamente. Como los datos de destino son matemáticamente similares a los datos de origen, el modelo encuentra patrones y funciona más rápido. 

Por ejemplo, considere la posibilidad de adaptar un modelo de análisis de opiniones basado en reseñas de productos para analizar las reseñas de películas. El dominio de origen (reseñas de productos) y el dominio de destino (reseñas de películas) difieren en el contexto y las características específicas, pero comparten similitudes en la estructura y el uso del idioma. El modelo aprende rápidamente a aplicar su comprensión del sentimiento del dominio del producto al dominio de la película.

Aprendizaje por transferencia inductiva

El aprendizaje por transferencia inductiva es aquel en el que los dominios de origen y destino son los mismos, pero las tareas que debe completar el modelo son diferentes. El modelo previamente entrenado ya está familiarizado con los datos de origen y se entrena más rápido para nuevas funciones.

Un ejemplo de aprendizaje por transferencia inductiva es el procesamiento de lenguaje natural (NLP). Los modelos se entrenan previamente en un gran conjunto de textos y luego se ajustan mediante el aprendizaje por transferencia inductiva a funciones específicas, como el análisis de sentimientos. Del mismo modo, los modelos de visión artificial, como el VGG, se entrenan previamente con conjuntos de datos de imágenes de gran tamaño y luego se ajustan para desarrollar la detección de objetos.

Aprendizaje por transferencia no supervisada

El aprendizaje por transferencia no supervisada utiliza una estrategia similar al aprendizaje por transferencia inductiva para desarrollar nuevas habilidades. Sin embargo, utiliza esta forma de aprendizaje por transferencia cuando solo tiene datos sin etiquetar en los dominios de origen y destino. 

El modelo aprende las características comunes de los datos no etiquetados para generalizar con mayor precisión cuando se le pide que realice una tarea específica. Este método es útil si resulta difícil o caro obtener datos de origen etiquetados.

Por ejemplo, pensemos en la tarea de identificar diferentes tipos de motocicletas en las imágenes de tráfico. Inicialmente, el modelo se basa en un gran conjunto de imágenes de vehículos sin etiquetar. En este caso, el modelo determina de forma independiente las similitudes y las características distintivas entre los diferentes tipos de vehículos, como automóviles, autobuses y motocicletas. Luego, se presenta al modelo un conjunto pequeño y específico de imágenes de motocicletas. El rendimiento del modelo mejora significativamente en comparación con el modelo anterior.

¿Cuáles son los pasos del aprendizaje por transferencia?

Hay tres pasos principales a la hora de ajustar un modelo de machine learning para una nueva tarea.

Seleccionar un modelo previamente entrenado

Primero, seleccione un modelo previamente entrenado con conocimientos o habilidades previas para una tarea relacionada. Un contexto útil para elegir un modelo adecuado es determinar la tarea de origen de cada modelo. Si comprende las tareas originales que realizó el modelo, puede encontrar una que haga una transición más eficaz hacia una nueva tarea.

Configurar sus modelos previamente entrenados

Después de seleccionar el modelo de origen, configúrelo para transferir conocimientos a un modelo y completar la tarea relacionada. Hay dos métodos principales para hacerlo.

Congelar las capas previamente entrenadas

Las capas son los componentes básicos de las redes neuronales. Cada capa consiste en un conjunto de neuronas y realiza transformaciones específicas en los datos de entrada. Las ponderaciones son los parámetros que la red utiliza para la toma de decisiones. Inicialmente establecidas en valores aleatorios, las ponderaciones se ajustan durante el proceso de entrenamiento a medida que el modelo aprende de los datos.

Al congelar las ponderaciones de las capas previamente entrenadas, las mantiene fijas, preservando el conocimiento que el modelo de aprendizaje profundo obtuvo de la tarea de origen.

Eliminar la última capa

En algunos casos de uso, también puede eliminar las últimas capas del modelo previamente entrenado. En la mayoría de las arquitecturas de ML, las últimas capas son específicas para cada tarea. La eliminación de estas capas finales ayuda a reconfigurar el modelo para los nuevos requisitos de tareas.

Introducir nuevas capas

La introducción de nuevas capas sobre el modelo previamente entrenado lo ayuda a adaptarse a la naturaleza especializada de la nueva tarea. Las nuevas capas adaptan el modelo a los matices y funciones del nuevo requisito.

Entrenar al modelo para el dominio de destino

Usted entrena al modelo con los datos de la tarea objetivo para desarrollar su salida estándar y alinearla con la nueva tarea. Es probable que el modelo previamente entrenado produzca resultados diferentes de los deseados. Tras supervisar y evaluar el rendimiento del modelo durante el entrenamiento, puede ajustar los hiperparámetros o la arquitectura de red neuronal de referencia para mejorar aún más la producción. A diferencia de las ponderaciones, los hiperparámetros no se aprenden de los datos. Están preestablecidos y desempeñan un papel crucial a la hora de determinar la eficiencia y la eficacia del proceso de entrenamiento. Por ejemplo, puede ajustar los parámetros de regularización o las tasas de aprendizaje del modelo para mejorar su capacidad en relación con la tarea objetivo.

¿Qué son las estrategias de aprendizaje por transferencia en la IA generativa?

Las estrategias de aprendizaje por transferencia son fundamentales para la adopción de la IA generativa en varios sectores. Las organizaciones pueden personalizar los modelos básicos existentes sin tener que entrenar a otros nuevos con miles de millones de parámetros de datos a escala. Las siguientes son algunas estrategias de aprendizaje por transferencia que se utilizan en la IA generativa.

Entrenamiento antagónico de dominios

El entrenamiento antagónico de dominios implica entrenar un modelo básico para producir datos que no se distingan de los datos reales del dominio de destino. Esta técnica generalmente emplea una red discriminadora, como se ve en las redes generativas antagónicas, que intenta distinguir entre datos verdaderos y datos generados. El generador aprende a crear datos cada vez más realistas.

Por ejemplo, en la generación de imágenes, un modelo entrenado en fotografías podría adaptarse para generar obras de arte. El discriminador ayuda a garantizar que la ilustración generada sea estilísticamente coherente con el dominio de destino.

Aprendizaje profesor-estudiante

El aprendizaje profesor-estudiante implica un modelo de “profesor” más grande y complejo que enseña a un modelo de “estudiante” más pequeño y simple. El modelo del estudiante aprende a imitar el comportamiento del modelo del profesor, transfiriendo el conocimiento de manera efectiva. Esto resulta útil para implementar modelos generativos de gran tamaño en entornos con recursos limitados.

Por ejemplo, un modelo de lenguaje de gran tamaño (LLM) podría servir como profesor para un modelo más pequeño, transfiriendo sus capacidades de generación de idiomas. Esto le permitiría al modelo más pequeño generar texto de alta calidad con menos sobrecarga computacional.

Separación de características

La separación de características en los modelos generativos implica separar diferentes aspectos de los datos, como el contenido y el estilo, en distintas representaciones. Esto permite que el modelo manipule estos aspectos de forma independiente en el proceso de aprendizaje por transferencia.

Por ejemplo, en una tarea de generación de rostros, una modelo podría aprender a separar los rasgos faciales del estilo artístico. Esto le permitiría generar retratos en varios estilos artísticos manteniendo la semejanza del sujeto.

Aprendizaje por transferencia intermodal

El aprendizaje por transferencia intermodal implica la transferencia de conocimientos entre diferentes modalidades, como texto e imágenes. Los modelos generativos pueden aprender las representaciones aplicables en estas modalidades. Un modelo entrenado en descripciones textuales e imágenes correspondientes podría aprender a generar imágenes relevantes a partir de nuevas descripciones textuales, transfiriendo eficazmente su comprensión de texto a imagen.

Aprendizaje zero-shot y few-shot

En el aprendizaje zero-shot y few-shot, los modelos generativos se entrenan para realizar tareas o generar datos de los que han visto pocos o ningún ejemplo durante el entrenamiento. Esto se logra aprendiendo representaciones enriquecidas que generalizan bien. Por ejemplo, se podría entrenar un modelo generativo para crear imágenes de animales. Utilizando el aprendizaje few-shot, podría generar imágenes de un animal poco visto al comprender y combinar características de otros animales.

¿Cómo puede ayudar AWS con los requisitos de aprendizaje por transferencia?

Amazon SageMaker JumpStart es un centro de ML en el que puede acceder a modelos previamente entrenados, incluidos modelos básicos, para realizar tareas como el resumen de artículos y la generación de imágenes. Puede usar el aprendizaje por transferencia para producir modelos precisos en sus conjuntos de datos más pequeños, con costos de entrenamiento más bajos que los involucrados en el entrenamiento del modelo original. Por ejemplo, con SageMaker JumpStart, puede:

  • Personalizar por completo los modelos previamente entrenados para su caso de uso y con sus datos para un despliegue más rápido en la producción.
  • Acceder a soluciones prediseñadas para resolver casos de uso comunes.
  • Compartir artefactos de ML, incluidos modelos y cuadernos de ML, dentro de su organización.

Al utilizar el enfoque de aprendizaje por transferencia multimodal, también puede utilizar el Depurador de Amazon SageMaker para detectar problemas ocultos graves. Por ejemplo, puede examinar las predicciones del modelo para detectar errores, validar la solidez del modelo y analizar qué parte de esta solidez proviene de las capacidades heredadas. También puede validar las entradas y los preprocesos del modelo para tener expectativas realistas.

Cree una cuenta gratuita hoy mismo para comenzar a transferir el aprendizaje en AWS.

Pasos siguientes en AWS

Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo al nivel Gratuito de AWS.

Regístrese 
Comenzar a crear en la consola

Comience a crear en la consola de administración de AWS.

Iniciar sesión