¿Qué es el machine learning?

El machine learning es la ciencia de desarrollo de algoritmos y modelos estadísticos que utilizan los sistemas de computación con el fin de llevar a cabo tareas sin instrucciones explícitas, en vez de basarse en patrones e inferencias. Los sistemas de computación utilizan algoritmos de machine learning para procesar grandes cantidades de datos históricos e identificar patrones de datos. Esto les permite generar resultados con mayor precisión a partir de un conjunto de datos de entrada. Por ejemplo, los científicos de datos pueden entrenar una aplicación médica para diagnosticar el cáncer con imágenes de rayos X a partir del almacenamiento de millones de imágenes escaneadas y diagnósticos correspondientes.

¿Por qué es importante el machine learning?

El machine learning permite que las empresas impulsen el crecimiento, generen nuevas fuentes de ingresos y resuelvan problemas complejos. Los datos son la fuerza que impulsa la toma de decisiones empresariales. Estos suelen tener diversos orígenes, como los comentarios de los clientes, los empleados y las finanzas. La investigación dedicada al machine learning automatiza y optimiza este proceso. Las empresas pueden obtener resultados más rápido con programas que analizan grandes volúmenes de datos a gran velocidad.

¿Dónde se utiliza el machine learning?

Veamos las aplicaciones del machine learning en algunos sectores clave:

Fabricación

El machine learning puede respaldar el mantenimiento predictivo, el control de calidad y la investigación innovadora en el sector de la fabricación. La tecnología de machine learning también ayuda a que las empresas mejoren sus soluciones logísticas, como la administración de recursos, la cadena de suministro y la administración de inventario. Por ejemplo, el gigante de la fabricación 3M utiliza AWS Machine Learning para innovar el papel de lija. Los algoritmos de machine learning permiten a los investigadores de 3M analizar el modo en que los pequeños cambios de forma, tamaño y orientación pueden mejorar la aspereza y resistencia. Estas sugerencias documentan el proceso de fabricación.

Sanidad y ciencias biológicas

La proliferación de dispositivos y sensores ponibles ha generado un importante volumen de datos sanitarios. Los programas de machine learning pueden analizar esta información y apoyar a los médicos en el diagnóstico y tratamiento en tiempo real. Los investigadores dedicados al machine learning desarrollan soluciones que detectan tumores cancerosos y diagnostican enfermedades oculares, lo que tiene un gran impacto en los resultados de salud. Por ejemplo, Cambia Health Solutions utilizó AWS Machine Learning para apoyar a las empresas emergentes del sector de la salud, con el fin de automatizar y personalizar el tratamiento de las mujeres embarazadas.

Servicios financieros

Los proyectos financieros de machine learning mejoran la regulación y análisis de riesgos. La tecnología de machine learning permite que los inversores identifiquen nuevas oportunidades mediante el análisis de los movimientos del mercado bursátil, la evaluación de los fondos de cobertura o la calibración de las carteras financieras. Además, ayuda a identificar a clientes que impliquen préstamos de alto riesgo y a mitigar los indicios de fraude.  El líder de software financiero Intuit utiliza el sistema de AWS Machine Learning, Amazon Textract, para lograr que la administración financiera sea más personalizada y ayudar a los usuarios finales a mejorar su situación financiera.

Venta minorista

La venta minorista puede utilizar el machine learning para mejorar el servicio al cliente, la administración del inventario, las ventas adicionales y el marketing multicanal. Por ejemplo, Amazon Fulfillment (AFT) redujo los costos de infraestructura en un 40 por ciento gracias a un modelo de machine learning que permite identificar el inventario extraviado. Esto ayuda a cumplir el compromiso de Amazon de tener los artículos disponibles para el cliente y entregarlos a tiempo, sin importar que cada año se procesen millones de envíos globales.

Contenido multimedia y entretenimiento

Las empresas de entretenimiento recurren al machine learning para comprender mejor a su audiencia y poder ofrecerles contenidos inmersivos, personalizados y bajo demanda. Los algoritmos de machine learning se implementan para ayudar a diseñar tráileres y otro tipo de anuncios, ofrecer a los consumidores recomendaciones de contenido personalizadas e incluso agilizar la producción. 

Por ejemplo, Disney utiliza el aprendizaje profundo de AWS para archivar la biblioteca de contenido multimedia. Las herramientas de AWS Machine Learning etiquetan, describen y clasifican automáticamente el contenido multimedia. Esto permite que los guionistas y animadores busquen y se familiaricen rápidamente con los personajes de Disney.

¿Cómo funciona el machine learning?

La idea central del machine learning es la existencia de una relación matemática entre cualquier combinación de datos de entrada y salida. El modelo de machine learning no conoce de antemano esta relación, pero puede adivinarla si se le dan suficientes conjuntos de datos. Esto significa que cada algoritmo de machine learning se crea en torno a una función matemática modificable. El principio subyacente puede entenderse así:

  1. Entrenamos el algoritmo al darle las siguientes combinaciones de entrada y salida (e,s): (2,10), (5,19) y (9,31)
  2. El algoritmo calcula que la relación entre la entrada y la salida es: o=3*i+4
  3. A continuación, le damos la entrada 7 y le pedimos que prediga la salida. Puede determinar automáticamente la salida como 25.

Si bien se trata de conocimientos básicos, el machine learning se centra en el principio de que los sistemas de computación pueden relacionar matemáticamente todos los puntos de datos complejos, siempre y cuando tengan suficientes datos y potencia de computación para procesarlos. Por lo tanto, la precisión de la salida está relacionada directamente con la magnitud de la entrada dada.

¿Cuáles son los tipos de algoritmos de machine learning?

Los algoritmos se pueden clasificar en cuatro estilos de aprendizaje distintos en función de la salida esperada y del tipo de entrada.

  1. Machine learning supervisado
  2. Machine learning sin supervisar
  3. Aprendizaje semisupervisado
  4. Machine learning por refuerzo

1. Machine learning supervisado

Los científicos de datos suministran algoritmos con datos de entrenamiento etiquetados y definidos para evaluar las correlaciones. Los datos de muestra especifican tanto la entrada como la salida del algoritmo. Por ejemplo, las imágenes de cifras manuscritas están anotadas para indicar a qué número corresponden. Un sistema de aprendizaje supervisado puede reconocer los clústeres de píxeles y formas asociadas a cada número, si se dan suficientes ejemplos. Con el tiempo, reconocerá números escritos a mano y distinguirá de forma fiable entre los números 9 y 4 o 6 y 8. 

Los ventajas del aprendizaje supervisado son la simplicidad y facilidad de diseño. Es útil para predecir un posible conjunto limitado de resultados, dividir los datos en categorías o combinar los resultados de otros dos algoritmos de machine learning. Sin embargo, es un reto etiquetar millones de conjuntos de datos sin etiquetar. Veámoslo en mayor profundidad:

¿Qué es el etiquetado de datos?

El etiquetado de datos es el proceso de categorizar los datos de entrada con sus correspondientes valores de salida definidos. Los datos de entrenamiento etiquetados son necesarios para el aprendizaje supervisado. Por ejemplo, habría que etiquetar millones de imágenes de manzanas y plátanos con las palabras “manzana” o “plátano”. A continuación, las aplicaciones de machine learning podrían utilizar estos datos de entrenamiento para adivinar el nombre de la fruta cuando se les dé una imagen de esta. Sin embargo, etiquetar millones de nuevos datos puede ser una tarea larga y complicada. Los servicios de trabajo en grupo, como Amazon Mechanical Turk, pueden superar hasta cierto punto esta limitación de los algoritmos de aprendizaje supervisado. Estos servicios dan acceso a una gran reserva de personal asequible repartida en todo el mundo que vuelve menos difícil la adquisición de datos.

2. Machine learning sin supervisar

Los algoritmos de aprendizaje no supervisado se entrenan con datos no etiquetados. Analizan los nuevos datos con la intención de establecer conexiones significativas entre las entradas y salidas predetermiadas. Pueden detectar patrones y categorizar los datos. Por ejemplo, los algoritmos no supervisados pueden agrupar artículos de noticias de diferentes sitios en categorías comunes como deportes, crimen, etc. Pueden utilizar el procesamiento de lenguaje natural para comprender el significado y la emoción del artículo. En el sector minorista, el aprendizaje no supervisado puede encontrar patrones en las compras de los clientes y proporcionar resultados de análisis de datos como: es más probable que el cliente compre pan si también compra mantequilla.

El aprendizaje no supervisado es útil para el reconocimiento de patrones, la detección de anomalías y la agrupación automática de datos en categorías. Como los datos de entrenamiento no necesitan etiquetado, la configuración es fácil. Estos algoritmos también se pueden utilizar para automáticamente limpiar y procesar datos con vistas a su posterior modelado. La limitación de este método es que no puede ofrecer predicciones precisas. Además, no puede señalar de forma independiente tipos específicos de resultados de datos.

3. Aprendizaje semisupervisado

Como su nombre indica, este método combina el aprendizaje supervisado y el no supervisado. Para entrenar los sistemas, esta técnica se basa en el uso de una pequeña cantidad de datos etiquetados y de una gran cantidad de datos sin etiquetar. En primer lugar, los datos etiquetados se utilizan para entrenar parcialmente el algoritmo de machine learning. Después, el propio algoritmo entrenado parcialmente etiqueta los datos no etiquetados. Este proceso se denomina pseudoetiquetado. A continuación, el modelo se vuelve a entrenar con la mezcla de datos resultante sin programarlo explícitamente.

La ventaja de este método es que no necesita grandes cantidades de datos etiquetados. Resulta útil cuando se trabaja con datos como documentos largos que los humanos tardarían mucho en leer y etiquetar.

4. Aprendizaje por refuerzo

El aprendizaje por refuerzo es un método con valores de recompensa adjuntos a los diferentes pasos que debe dar el algoritmo. Así, el objetivo del modelo es acumular tantos puntos de recompensa como sea posible y alcanzar una meta final. En la última década, la mayor parte de la aplicación práctica del aprendizaje por refuerzo se produjo en el ámbito de los videojuegos. Los algoritmos de aprendizaje por refuerzo más avanzados obtuvieron impresionantes resultados en videojuegos clásicos y modernos, a menudo superando de manera significativa a sus homólogos humanos. 

Aunque este método funciona mejor en entornos de datos inciertos y complejos, rara vez se aplica en contextos empresariales. No es eficiente para tareas bien definidas y el sesgo del desarrollador puede afectar los resultados. El científico de datos puede influir en los resultados ya que diseña las recompensas.

¿Los modelos de machine learning son deterministas?

Si el resultado de un sistema es predecible, se considera determinista. La mayoría de las aplicaciones de software responden de forma predecible a la acción del usuario, por lo que se puede decir: “Si el usuario hace esto, obtiene aquello”. Sin embargo, los algoritmos de machine learning aprenden mediante la observación y las experiencias. Por lo tanto, son de naturaleza probabilística. El enunciado cambia ahora a: “Si el usuario hace esto, hay un X % de posibilidades de que ocurra”.

En el machine learning, el determinismo es una estrategia que se utiliza al aplicar los métodos de aprendizaje descritos con anterioridad. Cualquiera de los métodos de entrenamiento supervisados, no supervisados y otros se pueden hacer deterministas en función de los resultados deseados por la empresa. La pregunta de investigación, la recuperación de datos, la estructura y las decisiones de almacenamiento determinan si se adopta una estrategia determinista o no determinista.

El enfoque determinista frente al probabilístico

El enfoque determinista se centra en la precisión y cantidad de datos recopilados, por lo que se prioriza la eficiencia sobre la incertidumbre. Por otro lado, el proceso no determinista (o probabilístico) está diseñado para administrar el factor azar. Los algoritmos de machine learning llevan integradas herramientas que ayudan a cuantificar, identificar y medir la incertidumbre durante el aprendizaje y la observación.

¿Qué es el aprendizaje profundo?

El aprendizaje profundo es un tipo de técnica de machine learning que se basa en el cerebro humano. Los algoritmos de aprendizaje profundo analizan los datos con una estructura lógica similar a la que utilizan los humanos. El aprendizaje profundo utiliza sistemas inteligentes, denominados redes neuronales artificiales, para procesar información por capas. Los datos fluyen desde la capa de entrada a través de varias capas de redes neuronales “profundas” ocultas antes de llegar a la capa de salida. Las capas adicionales ocultas permiten un aprendizaje mucho más eficaz que el de los modelos estándar de machine learning.

¿Qué es una red neuronal artificial?

Las capas de aprendizaje profundo son nodos de redes neuronales artificiales (RNA) que funcionan como las neuronas del cerebro humano. Los nodos pueden ser una combinación de hardware y software. Cada capa de un algoritmo de aprendizaje profundo está formada por nodos de RNA. Cada nodo o neurona artificial se conecta a otro y tiene asociados un número de valor y uno de umbral. Cuando se activa, un nodo envía su número de valor como entrada al nodo de la capa siguiente. Se activa solo si su salida está por encima del valor umbral especificado. En caso contrario, no se transmite ningún dato.

¿Qué es la visión artificial?

La visión artificial es una aplicación real del aprendizaje profundo. Del mismo modo que la inteligencia artificial permite a las computadoras pensar, la visión artificial les permite ver, observar y responder. Los vehículos autónomos utilizan la visión artificial para entender las señales de tráfico. La cámara de un coche toma una foto de la señal. Esta foto se envía al algoritmo de aprendizaje profundo del coche. La primera capa oculta detecta los bordes, la siguiente diferencia los colores, mientras que la tercera capa identifica los detalles del alfabeto en el cartel. El algoritmo predice que la señal dice ALTO y el coche responde al accionar el mecanismo de freno.

¿El machine learning y el aprendizaje profundo son lo mismo?

El aprendizaje profundo es un subconjunto del machine learning. Los algoritmos de aprendizaje profundo se pueden considerar una evolución sofisticada y matemáticamente compleja de los algoritmos de machine learning.

¿Es lo mismo el machine learning que la inteligencia artificial?

La respuesta corta es no. Aunque los términos machine learning e inteligencia artificial (IA) se pueden usar de manera indistinta, no son lo mismo. La inteligencia artificial es un término que engloba diferentes estrategias y técnicas que se usan para hacer que las máquinas se parezcan más a los humanos. La IA incluye todo, desde asistentes inteligentes como Alexa hasta aspiradoras robóticas y vehículos autónomos. El machine learning es una de las muchas ramas de la inteligencia artificial. Aunque el machine learning es IA, no todas las actividades de IA son machine learning.

¿El machine learning y la ciencia de datos son lo mismo?

No, el machine learning y la ciencia de datos no son lo mismo. La ciencia de datos es un campo de estudio que utiliza un enfoque científico para extraer significado e información de los datos. Los científicos de datos utilizan una serie de herramientas para el análisis de datos, y el machine learning es una de ellas. Los científicos de datos comprenden el panorama general que rodea a los datos, como el modelo empresarial, el dominio y la recopilación de datos, mientras que el machine learning es un proceso computacional que solo se ocupa de los datos sin procesar.

¿Cuáles son las ventajas y desventajas del machine learning?

Veamos algunas cosas que el machine learning puede y no puede hacer:

Ventajas de los modelos de machine learning:

  • Identifican tendencias y patrones de datos que los humanos pueden pasar por alto.
  • Luego de configurarlos, pueden funcionar sin intervención humana. Por ejemplo, el machine learning en el software de ciberseguridad puede supervisar e identificar de manera continua las irregularidades en el tráfico de red sin la intervención del administrador.
  • Los resultados pueden ser más precisos con el tiempo.
  • Pueden manejar una variedad de formatos de datos en entornos dinámicos, complejos y de gran volumen de datos.

Desventajas de los modelos de machine learning:

  • El entrenamiento inicial es un proceso costoso y puede llevar mucho tiempo. Puede ser difícil de aplicar si no se dispone de datos suficientes.
  • Se trata de un proceso con uso intensivo de computación que requiere una inversión inicial fuerte en caso de que el hardware se configure de manera interna.
  • Sin la ayuda de un experto, puede ser un reto interpretar los resultados correctamente y eliminar la incertidumbre.          

¿Cómo puede ayudar el machine learning de Amazon?

AWS pone el machine learning al alcance de todos los desarrolladores, científicos de datos y usuarios empresariales. Los servicios de Amazon Machine Learning proporcionan una infraestructura de alto rendimiento, rentable y escalable para satisfacer las necesidades empresariales.

¿Apenas comienza?

Aprenda sobre el machine learning con nuestros instrumentos educativos prácticos, como AWS DeepRacer, AWS DeepComposer y AWS DeepLens.

¿Tiene un archivo de datos existente?

Utilice el etiquetado de datos de Amazon SageMaker para los flujos de trabajo de etiquetado de datos integrados que admiten video, imágenes y texto.

¿Dispone de sistemas de machine learning existentes?

Utilice Amazon SageMaker Clarify para detectar sesgos y el Depurador de Amazon SageMaker para supervisar y optimizar el rendimiento.

¿Quiere implementar el aprendizaje profundo?

Utilice Amazon SageMaker Distributed Training para entrenar automáticamente grandes modelos de aprendizaje profundo. Regístrese para obtener una cuenta gratuita y comience hoy mismo el proceso de adopción del machine learning.

Siguientes pasos del machine learning