¿Cuál es la diferencia entre el aprendizaje supervisado y el no supervisado?


¿Cuál es la diferencia entre el machine learning supervisado y el no supervisado?

El machine learning (ML) supervisado y no supervisado son dos categorías de algoritmos de ML. Los algoritmos de ML procesan grandes cantidades de datos históricos para identificar patrones de datos mediante inferencia. 

Los algoritmos de aprendizaje supervisado se entrenan con datos de muestra que especifican tanto la entrada como la salida del algoritmo. Por ejemplo, los datos podrían ser imágenes de números escritos a mano que se anotan para indicar qué números representan. Si se proporcionan suficientes datos etiquetados, el sistema de aprendizaje supervisado finalmente reconocerá los clústeres de píxeles y las formas asociados a cada número escrito a mano. 

Por otra parte, los algoritmos de aprendizaje no supervisado se entrenan con datos sin etiquetar. Analizan los nuevos datos y establecen conexiones significativas entre la entrada desconocida y las salidas predeterminadas. Por ejemplo, los algoritmos de aprendizaje no supervisado podrían agrupar artículos de noticias de diferentes sitios de noticias en categorías comunes, como deportes y crímenes.

Técnicas de aprendizaje supervisado y de aprendizaje no supervisado

En machine learning (ML), se enseña a una computadora a efectuar predicciones o inferencias. En primer lugar, se utiliza un algoritmo y datos de ejemplo para entrenar un modelo. Luego, se integra el modelo a su aplicación para generar inferencias en tiempo real y a escala. El aprendizaje supervisado y el no supervisado son dos categorías distintas de algoritmos.

Aprendizaje supervisado

En el aprendizaje supervisado, el modelo se entrena con un conjunto de datos de entrada y el conjunto correspondiente de datos de salida etiquetados en pares. Por lo general, el etiquetado se realiza de forma manual. A continuación, se presentan algunos tipos de técnicas de machine learning supervisado.

Regresión logística

La regresión logística predice un resultado categórico en función de una o más entradas. La clasificación binaria se produce cuando el resultado se ajusta a una de dos categorías, como sí o no y aprobado o desaprobado. La clasificación de clases múltiples se produce cuando el resultado coincide con más de dos categorías, como gato, perro o conejo.  Un ejemplo de regresión logística es predecir si un estudiante aprobará o reprobará una unidad en función del número de inicios de sesión en el software del curso.

Lea acerca de la regresión logística »

Regresión lineal

La regresión lineal se refiere a los modelos de aprendizaje supervisado que, basándose en una o más entradas, predicen un valor a partir de una escala continua. Un ejemplo de regresión lineal es la predicción del precio de una casa. Podría predecir el precio de una casa en función de su ubicación, antigüedad y cantidad de habitaciones, después de entrenar el modelo con un conjunto de datos de entrenamiento sobre ventas históricas con esas variables.

Lea acerca de la regresión lineal »

Árbol de decisiones

La técnica de machine learning supervisado de árbol de decisiones toma algunas entradas determinadas y aplica una estructura de condición para predecir un resultado. Un ejemplo de un problema de árbol de decisiones es la predicción de la pérdida de clientes. Por ejemplo, si un cliente no visita una aplicación después de registrarse, el modelo podría predecir la pérdida de clientes. O bien, si el cliente accede a la aplicación en varios dispositivos y el tiempo medio de sesión supera un límite determinado, el modelo podría predecir su retención.

Red neuronal

Una solución de red neuronal es una técnica de aprendizaje supervisado más compleja. Para producir un resultado determinado, toma algunas entradas particulares y lleva a cabo una o más capas de transformación matemática basadas en el ajuste de las ponderaciones de los datos. Un ejemplo de una técnica de red neuronal es la predicción de un dígito a partir de una imagen escrita a mano.

Más información sobre las redes neuronales »

Aprendizaje no supervisado

El machine learning no supervisado se produce cuando se proporcionan datos de entrada al algoritmo sin ningún dato de salida etiquetado. Luego, por sí solo, el algoritmo identifica patrones y relaciones en los datos y entre ellos. A continuación, se presentan algunos tipos de técnicas de aprendizaje no supervisado.

Agrupación en clústeres

La técnica de aprendizaje no supervisado de agrupación en clústeres agrupa ciertas entradas de datos, por lo que pueden clasificarse como un todo. Existen diversos tipos de algoritmos de agrupación en clústeres en función de los datos de entrada. Un ejemplo de agrupación en clústeres es la identificación de diferentes tipos de tráfico de red para predecir posibles incidentes de seguridad.

Aprendizaje de reglas de asociación

Las técnicas de aprendizaje de reglas de asociación descubren relaciones basadas en reglas entre las entradas de un conjunto de datos. Por ejemplo, el algoritmo Apriori lleva a cabo un análisis del carrito del supermercado para identificar reglas como la de que el café y la leche suelen comprarse juntos.

Densidad de probabilidad

Las técnicas de densidad de probabilidad en el aprendizaje no supervisado predicen la probabilidad o la posibilidad de que el valor de una salida esté dentro del rango de lo que se considera normal para una entrada. Por ejemplo, un medidor de temperatura en una sala de servidores normalmente registra entre un cierto rango de grados. Sin embargo, si de repente mide un número bajo en función de la distribución de probabilidad, puede indicar un mal funcionamiento del equipo. 

Reducción de dimensionalidad

La reducción de la dimensionalidad es una técnica de aprendizaje no supervisado que reduce la cantidad de características en un conjunto de datos. A menudo se usa para preprocesar los datos para otras funciones de machine learning y reducir la complejidad y la sobrecarga. Por ejemplo, puede difuminar o recortar las características del fondo en una aplicación de reconocimiento de imágenes.

Cuándo usar el aprendizaje supervisado o el no supervisado

Puede utilizar técnicas de aprendizaje supervisado para resolver problemas con resultados conocidos y que tengan datos etiquetados disponibles. Los ejemplos incluyen la clasificación del correo electrónico no deseado, el reconocimiento de imágenes y las predicciones del precio de las acciones en función de los datos históricos conocidos.

Puede utilizar el aprendizaje no supervisado para situaciones en las que los datos no están etiquetados y el objetivo es descubrir patrones, agrupar instancias similares o detectar anomalías. También puede usarlo para tareas exploratorias en las que no haya datos etiquetados. Los ejemplos incluyen la organización de grandes archivos de datos, la creación de sistemas de recomendación y la agrupación de los clientes en función de sus comportamientos de compra.

¿Se puede utilizar el aprendizaje supervisado y el no supervisado al mismo tiempo?

El aprendizaje semisupervisado consiste en aplicar técnicas de aprendizaje supervisado y no supervisado a un problema común. Es otra categoría de machine learning en sí misma.

Puede aplicar el aprendizaje semisupervisado cuando resulte difícil obtener las etiquetas para un conjunto de datos. Es posible que tenga un volumen menor de datos etiquetados, pero una cantidad significativa de datos sin etiquetar. En comparación con el uso exclusivo del conjunto de datos etiquetado, obtendrá una mayor precisión y eficiencia si combina las técnicas de aprendizaje supervisado y no supervisado.

Estos son algunos ejemplos de las aplicaciones de aprendizaje semisupervisado.

Identificación de fraudes

Dentro de un gran conjunto de datos transaccionales, hay un subconjunto de datos etiquetados en los que los especialistas han confirmado transacciones fraudulentas. Para obtener un resultado más preciso, la solución de machine learning se entrenaría primero con los datos sin etiquetar y, luego, con los datos etiquetados.

Análisis de opiniones

Al considerar la amplitud de las interacciones con los clientes basadas en texto de una organización, puede que no sea rentable clasificar ni etiquetar las opiniones en todos los canales. Una organización podría entrenar un modelo primero con la porción más grande de los datos sin etiquetar y, luego, con una muestra que haya sido etiquetada. Esto proporcionaría a la organización un mayor grado de confianza en la opinión de los clientes en toda la empresa.

Clasificación de documentos

Al aplicar categorías a una gran base de documentos, es posible que haya demasiados documentos para etiquetarlos físicamente. Por ejemplo, podría haber innumerables informes, transcripciones o especificaciones. Para empezar, el entrenamiento con datos sin etiquetar ayuda a identificar documentos similares para etiquetarlos. 

Resumen de las diferencias: aprendizaje supervisado y no supervisado

 

Aprendizaje supervisado

Aprendizaje no supervisado

¿Qué es?

El modelo se entrena con un conjunto de datos de entrada y el conjunto correspondiente de datos de salida etiquetados en pares.

Esto se hace para que el modelo descubra patrones ocultos en los datos sin etiquetar.

Técnicas

Regresión logística, regresión lineal, árbol de decisiones y red neuronal

Agrupamiento en clústeres, aprendizaje de reglas de asociación, densidad de probabilidad y reducción de dimensionalidad

Objetivo

Prediga una salida en función de las entradas conocidas.

Identifique información valiosa sobre las relaciones entre los puntos de datos de entrada. Luego, esto se puede aplicar a nuevas entradas para obtener información similar.

Enfoque

Minimice los errores entre las salidas previstas y las etiquetas verdaderas.

Encuentre patrones, similitudes o anomalías en los datos.

¿Cómo puede ayudar AWS con el aprendizaje supervisado y no supervisado?

Amazon Web Services (AWS) ofrece una amplia variedad de ofertas para ayudarlo con el machine learning (ML) supervisado, no supervisado y semisupervisado. Puede crear, ejecutar e integrar soluciones de cualquier tamaño, complejidad o caso de uso.

Amazon SageMaker es una plataforma completa para crear soluciones de ML desde cero. SageMaker cuenta con un conjunto completo de modelos prediseñados de aprendizaje supervisado y no supervisado, capacidades de almacenamiento y computación y un entorno completamente administrado.

Por ejemplo, estas son las características de SageMaker que puede utilizar en su trabajo:

  • Utilice el Piloto automático de Amazon SageMaker para explorar automáticamente diferentes soluciones y encontrar el mejor modelo para su conjunto de datos determinado.
  • Utilice Amazon SageMaker Data Wrangler para seleccionar datos, conocer la información sobre los datos y transformarlos para prepararlos para el machine learning.
  • Utilice los experimentos de Amazon SageMaker para analizar y comparar las iteraciones de entrenamiento de machine learning a fin de elegir el modelo con mejor rendimiento.
  • Utilice Amazon SageMaker Clarify para detectar y medir posibles sesgos. De esta forma, los desarrolladores de ML pueden abordar los posibles sesgos y explicar las predicciones de los modelos.

Cree una cuenta hoy mismo para empezar a utilizar el machine learning supervisado y no supervisado en AWS.

Siguientes pasos con AWS

Comience a crear con machine learning supervisado

Descubra cómo comenzar a utilizar machine learning supervisado en AWS

Más información 
Comience a crear con machine learning no supervisado

Descubra cómo comenzar a utilizar machine learning no supervisado en AWS

Más información