¿Qué es la visión artificial?

La visión artificial es una tecnología que utilizan las máquinas para reconocer automáticamente las imágenes y describirlas de manera precisa y eficiente. Hoy en día, los sistemas informáticos tienen acceso a un gran volumen de imágenes y datos de video procedentes o creados por teléfonos inteligentes, cámaras de tráfico, sistemas de seguridad y otros dispositivos. Las aplicaciones de visión artificial utilizan inteligencia artificial y el machine learning (IA/ML) para procesar estos datos con precisión para la identificación de objetos y el reconocimiento facial, así como para la clasificación, la recomendación, el monitoreo y la detección.

¿Por qué es importante la visión artificial?

Si bien la tecnología de procesamiento de información visual existe desde hace algún tiempo, gran parte del proceso requería la intervención humana, consumía mucho tiempo y era propenso a errores. Por ejemplo, la implementación de un sistema de reconocimiento facial en el pasado requería que los desarrolladores etiquetaran de forma manual miles de imágenes con puntos de datos clave, como el ancho del puente de la nariz y la distancia entre los ojos. La automatización de estas tareas requería una gran potencia de cálculo, ya que los datos de imágenes no están estructurados y su organización resulta compleja para las computadoras. Por lo tanto, las aplicaciones de visión eran costosas e inaccesibles para la mayoría de las organizaciones.

Hoy en día, el progreso en este campo, combinado con un aumento considerable de la potencia computacional, ha mejorado tanto la escala como la precisión del procesamiento de datos de imágenes. Los sistemas de visión artificial impulsados por recursos de computación en la nube ahora son accesibles para todos. Cualquier organización puede utilizar la tecnología para la verificación de identidad, la moderación del contenido, el análisis de transmisiones de video y la detección de errores, entre otras tareas.

¿Cuáles son los casos de uso de la visión artificial?

Se utilizan numerosas aplicaciones de visión artificial en el entretenimiento, los negocios, la atención sanitaria, el transporte y la vida cotidiana. A continuación, analizamos algunos casos de uso:

Seguridad y protección

Los gobiernos y las empresas utilizan la visión artificial para mejorar la seguridad de los activos, los sitios y las instalaciones. Por ejemplo, las cámaras y los sensores supervisan los espacios públicos, los sitios industriales y los entornos de alta seguridad. Envían alertas automáticas si ocurre algo fuera de lo normal, como que una persona no autorizada entre en una zona restringida.

Del mismo modo, la visión artificial puede mejorar la seguridad personal tanto en el hogar como en el lugar de trabajo. Por ejemplo, la tecnología de reconocimiento puede supervisar innumerables problemas relacionados con la seguridad. Entre ellas se incluyen transmisiones en tiempo real desde el hogar para detectar mascotas, o cámaras en directo en la puerta de entrada para detectar visitas o paquetes entregados. En el lugar de trabajo, dicha supervisión incluye el uso del equipo de protección personal adecuado por parte de los trabajadores, la información a los sistemas de alerta o la generación de informes.

Eficacia operativa

La visión artificial puede analizar imágenes y extraer metadatos para la inteligencia empresarial, creando nuevas oportunidades de ingresos y eficiencias operativas. Por ejemplo, puede:

  • Identificar automáticamente los defectos de calidad antes de que los productos salgan de fábrica
  • Detectar problemas de mantenimiento y seguridad de la máquina
  • Analizar las imágenes de las redes sociales para descubrir tendencias y patrones en el comportamiento de los clientes
  • Autenticar a los empleados con reconocimiento facial automático

Atención sanitaria

La atención sanitaria es uno de los principales sectores que aplican la tecnología de visión artificial. En particular, el análisis de imágenes médicas crea una visualización de los órganos y tejidos para ayudar a los profesionales médicos a realizar diagnósticos rápidos y precisos, lo que se traduce en mejores resultados del tratamiento y en la esperanza de vida. Por ejemplo:

  • Detección de tumores mediante el análisis de lunares y lesiones cutáneas
  • Análisis de rayos X automático
  • Descubrimiento de síntomas a partir de resonancias magnéticas

Vehículos autónomos

La tecnología de vehículos autónomos utiliza la visión artificial para reconocer imágenes en tiempo real y crear mapas 3D a partir de múltiples cámaras instaladas en el transporte autónomo. Puede analizar imágenes e identificar a otros usuarios de la carretera, señales de tráfico, peatones u obstáculos.

En los vehículos semiautónomos, la visión artificial utiliza el machine learning (ML) para supervisar el comportamiento del conductor. Por ejemplo, busca signos de distracción, fatiga y somnolencia basándose en la posición de la cabeza del conductor, el seguimiento de los ojos y el movimiento de la parte superior del cuerpo. Si la tecnología detecta ciertas señales de advertencia, alerta al conductor y reduce la posibilidad de que se produzca un incidente de conducción.

Agricultura

Desde aumentar la productividad hasta reducir los costos con la automatización inteligente, las aplicaciones de visión artificial mejoran el funcionamiento general del sector agrícola. Las imágenes de satélite y las imágenes de vehículos aéreos no tripulados ayudan a analizar vastas extensiones de tierra y a mejorar las prácticas agrícolas. Las aplicaciones de visión artificial automatizan tareas como supervisar las condiciones del campo, identificar enfermedades en los cultivos, controlar la humedad del suelo y predecir el clima y el rendimiento de los cultivos. La supervisión de los animales con visión artificial es otra estrategia clave de la agricultura inteligente.

¿Cómo funciona la visión artificial?

Los sistemas de visión artificial utilizan la tecnología de inteligencia artificial (IA) para imitar las capacidades del cerebro humano que son responsables del reconocimiento y la clasificación de objetos. Los científicos informáticos entrenan a las computadoras para que reconozcan datos visuales ingresando grandes cantidades de información. Los algoritmos de machine learning (ML) identifican patrones comunes en estas imágenes o videos y aplican ese conocimiento para identificar imágenes desconocidas con precisión. Por ejemplo, si las computadoras procesan millones de imágenes de automóviles, comenzarán a crear patrones de identidad que puedan detectar con precisión un vehículo en una imagen. La visión artificial utiliza tecnologías como las que se indican a continuación.

Aprendizaje profundo

El aprendizaje profundo es un tipo de ML que utiliza redes neuronales. Las redes neuronales de aprendizaje profundo están formadas por muchas capas de módulos de software llamados neuronas artificiales que trabajan juntas dentro de la computadora. Utilizan cálculos matemáticos para procesar de forma automática diferentes aspectos de los datos de la imagen y desarrollar gradualmente una comprensión combinada de la imagen.

Redes neuronales convolucionales

Las redes neuronales convolucionales (CNN) utilizan un sistema de etiquetado para clasificar los datos visuales y comprender la imagen completa. Analizan las imágenes como píxeles y asignan a cada píxel un valor de etiqueta. El valor se introduce para realizar una operación matemática llamada convolución y hacer predicciones sobre la imagen. Al igual que un humano que intenta reconocer un objeto a distancia, una CNN primero identifica contornos y formas simples antes de completar detalles adicionales como el color, las formas internas y la textura. Por último, repite el proceso de predicción en varias iteraciones para mejorar la precisión.

Redes neuronales recurrentes 

Las redes neuronales recurrentes (RNN) son similares a las CNN, pero pueden procesar una serie de imágenes para encontrar enlaces entre ellas. Si bien las CNN se utilizan para el análisis de imágenes individuales, las RNN pueden analizar videos y comprender las relaciones entre las imágenes. 

¿Cuál es la diferencia entre visión artificial y procesamiento de imágenes?

El procesamiento de imágenes utiliza algoritmos para alterar las imágenes, como la nitidez, el suavizado, el filtrado o la mejora. La visión artificial es diferente, ya que no cambia una imagen, sino que da sentido a lo que ve y lleva a cabo una tarea, como etiquetar. En algunos casos, puede utilizar el procesamiento de imágenes para modificar una imagen para que un sistema de visión artificial pueda entenderla mejor. En otros casos, utiliza la visión artificial para identificar imágenes o partes de una imagen y, a continuación, utiliza el procesamiento de imágenes para modificarla aún más.

¿Cuáles son las tareas comunes que puede realizar la visión artificial?

Veamos algunos ejemplos de tareas de visión artificial que las organizaciones pueden implementar a continuación. 

Clasificación de imágenes

La clasificación de imágenes permite a las computadoras ver una imagen y clasificar con precisión a qué clase pertenece. La visión artificial entiende las clases y las etiqueta, por ejemplo, árboles, aviones o edificios. Un ejemplo es que una cámara puede reconocer rostros en una fotografía y enfocarse en ellos.

Detección de objetos

La detección de objetos es una tarea de visión artificial para detectar y localizar imágenes. Utiliza la clasificación para identificar, ordenar y organizar las imágenes. La detección de objetos se utiliza en procesos industriales y de fabricación para controlar aplicaciones autónomas y supervisar las líneas de producción. Los fabricantes y proveedores de servicios de cámaras domésticas conectadas también confían en la detección de objetos para procesar las transmisiones de video en directo de las cámaras a fin de detectar personas y objetos en tiempo real y proporcionar alertas procesables a los usuarios finales.

Seguimiento de objetos

El seguimiento de objetos utiliza modelos de aprendizaje profundo para identificar y rastrear los elementos que pertenecen a categorías. Tiene varias aplicaciones en el mundo real en varias industrias. El primer elemento del seguimiento de objetos es la detección de objetos; el objeto tiene un cuadro delimitador creado a su alrededor, se le asigna un identificador de objeto y se le puede rastrear a través de marcos. Por ejemplo, el seguimiento de objetos se puede utilizar para supervisar el tráfico en entornos urbanos, la vigilancia humana y la obtención de imágenes médicas.

Segmentación

La segmentación es un algoritmo de visión artificial que identifica un objeto dividiendo sus imágenes en diferentes regiones en función de los píxeles que se ven. La segmentación también simplifica una imagen, por ejemplo, al colocar una forma o un contorno de un elemento para determinar de qué se trata. De este modo, la segmentación también reconoce si hay más de un objeto en una imagen o marco.

Por ejemplo, si hay un gato y un perro en una imagen, se puede utilizar la segmentación para reconocer los dos animales. A diferencia de la detección de objetos, que crea una caja alrededor de un objeto, la segmentación rastrea los píxeles para determinar la forma de un objeto, lo que facilita su análisis y etiquetado.

Recuperación de imágenes basada en el contenido

La recuperación de imágenes basada en el contenido es una aplicación de técnicas de visión artificial que permite buscar imágenes digitales específicas en bases de datos de gran tamaño. Analiza metadatos como etiquetas, descripciones, etiquetas y palabras clave. La recuperación semántica utiliza comandos como “buscar imágenes de edificios” para recuperar el contenido apropiado.

¿Cómo lo ayuda AWS en sus tareas de visión artificial?

AWS proporciona el conjunto más amplio y completo de servicios de inteligencia artificial y machine learning (IA/ML) conectados a un amplio conjunto de origen de datos para clientes de todos los niveles de experiencia.

Para los clientes que se basan en marcos y administran su propia infraestructura, optimizamos las versiones de los marcos de aprendizaje profundo más populares, incluidos PyTorch, MXNet y TensorFlow. AWS ofrece una cartera amplia y completa de servicios de ML de infraestructura de cómputos, redes y almacenamiento con una variedad de procesadores y aceleradores para satisfacer necesidades presupuestarias y de rendimiento únicas.

Para los clientes que desean crear una solución de visión artificial estándar en toda su empresa, Amazon SageMaker facilita la preparación de datos y la creación, el entrenamiento y la implementación de modelos de ML para cualquier caso de uso con una infraestructura, herramientas y flujos de trabajo totalmente administrados, incluidas las ofertas sin código para las empresas analistas.

Para los clientes que carecen de conocimientos de ML, necesitan un tiempo de comercialización más rápido o desean añadir inteligencia a un proceso o una aplicación existentes, AWS ofrece una gama de servicios de visión artificial basados en ML. Estos servicios le permiten agregar inteligencia con facilidad a sus aplicaciones de IA mediante API preentrenadas. Amazon Rekognition automatiza el análisis de imágenes y videos con ML y analiza millones de imágenes, transmisiones en directo y videos almacenados en cuestión de segundos. Amazon Deep Lens es la primera cámara de video del mundo con tecnología de aprendizaje profundo para que los desarrolladores aprendan los conceptos básicos del aprendizaje profundo a través de proyectos de visión artificial, tutoriales y exploraciones prácticas del mundo real con un dispositivo físico.

Para comenzar a utilizar la visión artificial, cree una cuenta gratuita de AWS hoy mismo.

Siguientes pasos en AWS

Descubra otros recursos relacionados con el producto
Obtenga más información sobre los servicios de machine learning 
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo al nivel Gratuito de AWS.

Regístrese 
Comience a crear en la consola

Comience a crear con AWS en la consola de administración de AWS.

Iniciar sesión