- ¿Qué es la computación en la nube?›
- Centro de conceptos de computación en la nube›
- Inteligencia artificial
¿Qué es la visión artificial?
¿Qué es la visión artificial?
La visión artificial es una tecnología que utilizan las máquinas para reconocer automáticamente las imágenes y describirlas de manera precisa y eficiente. Hoy en día, los sistemas informáticos tienen acceso a un gran volumen de imágenes y datos de video procedentes o creados por teléfonos inteligentes, cámaras de tráfico, sistemas de seguridad y otros dispositivos. Las aplicaciones de visión artificial utilizan inteligencia artificial y aprendizaje automático (AI/ML) para procesar estos datos con precisión para la identificación de objetos y el reconocimiento facial, así como para la clasificación, la recomendación, el monitoreo y la detección.
Casos de uso
Seguridad y protección
Los gobiernos y las empresas utilizan la visión artificial para mejorar la seguridad de los activos, los sitios y las instalaciones. Por ejemplo, las cámaras y los sensores supervisan los espacios públicos, los sitios industriales y los entornos de alta seguridad. Envían alertas automáticas si ocurre algo fuera de lo común, como la entrada de una persona no autorizada a un área restringida.
Del mismo modo, la visión artificial puede mejorar la seguridad personal tanto en el hogar como en el lugar de trabajo. Por ejemplo, la tecnología de reconocimiento puede supervisar innumerables problemas relacionados con la seguridad. Entre ellas se incluyen transmisiones en tiempo real desde el hogar para detectar mascotas, o cámaras en directo en la puerta de entrada para detectar visitas o paquetes entregados. En el lugar de trabajo, dicha supervisión incluye el uso por parte de los trabajadores del equipo de protección personal adecuado , la información a los sistemas de alerta o la generación de informes.
Eficacia operativa
La visión artificial puede analizar imágenes y extraer metadatos para la inteligencia empresarial, creando nuevas oportunidades de ingresos y eficiencias operativas. Por ejemplo, puede:
-
Identificar automáticamente los defectos de calidad antes de que los productos salgan de fábrica
-
Detectar problemas de mantenimiento y seguridad de la máquina
-
Analizar las imágenes de las redes sociales para descubrir tendencias y patrones en el comportamiento de los clientes
-
Autenticar a los empleados con reconocimiento facial automático
Vehículos autónomos
La tecnología de vehículos autónomos utiliza la visión artificial para reconocer imágenes en tiempo real y crear mapas 3D a partir de múltiples cámaras instaladas en el transporte autónomo. Puede analizar imágenes e identificar a otros usuarios de la carretera, señales de tráfico, peatones u obstáculos.
En los vehículos semiautónomos, la visión por computadora utiliza el aprendizaje automático (ML) para monitorear el comportamiento del conductor. Por ejemplo, busca signos de distracción, fatiga y somnolencia basándose en la posición de la cabeza del conductor, el seguimiento de los ojos y el movimiento de la parte superior del cuerpo. Si la tecnología detecta ciertas señales de advertencia, alerta al conductor y reduce la posibilidad de que se produzca un incidente de conducción.
Agricultura
Desde aumentar la productividad hasta reducir los costos con la automatización inteligente, las aplicaciones de visión artificial mejoran el funcionamiento general del sector agrícola. Las imágenes de satélite y las imágenes de vehículos aéreos no tripulados ayudan a analizar vastas extensiones de tierra y a mejorar las prácticas agrícolas. Las aplicaciones de visión artificial automatizan tareas como supervisar las condiciones del campo, identificar enfermedades en los cultivos, controlar la humedad del suelo y predecir el clima y el rendimiento de los cultivos. El monitoreo de animales con visión artificial es otra estrategia clave de la agricultura inteligente.
Atención sanitaria
La atención médica es una de las principales industrias que aplican la tecnología de visión artificial. En particular, el análisis de imágenes médicas crea una visualización de los órganos y tejidos para ayudar a los profesionales médicos a realizar diagnósticos rápidos y precisos, lo que se traduce en mejores resultados del tratamiento y en la esperanza de vida. Por ejemplo:
-
Detección de tumores mediante el análisis de lunares y lesiones cutáneas
-
Análisis de rayos X automático
-
Descubrimiento de síntomas a partir de resonancias magnéticas
¿Cómo funciona la visión artificial?
Los sistemas de visión artificial utilizan tecnología de inteligencia artificial (IA) para imitar las capacidades del cerebro humano que son responsables del reconocimiento y la clasificación de objetos. Los científicos informáticos entrenan a las computadoras para que reconozcan datos visuales ingresando grandes cantidades de información. Los algoritmos de machine learning (ML) identifican patrones comunes en estas imágenes o videos y aplican ese conocimiento para identificar imágenes desconocidas con precisión. Por ejemplo, si las computadoras procesan millones de imágenes de automóviles, comenzarán a crear patrones de identidad que puedan detectar con precisión un vehículo en una imagen. La visión artificial utiliza tecnologías como las que se detallan a continuación.
Aprendizaje profundo
El aprendizaje profundo es un tipo de aprendizaje automático que utiliza redes neuronales. Las redes neuronales de aprendizaje profundo están formadas por muchas capas de módulos de software llamados neuronas artificiales que trabajan juntas dentro de la computadora. Utilizan cálculos matemáticos para procesar de forma automática diferentes aspectos de los datos de la imagen y desarrollar gradualmente una comprensión combinada de la imagen.
Redes neuronales convolucionales
Las redes neuronales convolucionales (CNN) utilizan un sistema de etiquetado para clasificar los datos visuales y comprender la imagen completa. Analizan las imágenes como píxeles y asignan a cada píxel un valor de etiqueta. El valor se introduce para realizar una operación matemática llamada convolución y hacer predicciones sobre la imagen. Al igual que un humano que intenta reconocer un objeto a distancia, una CNN primero identifica contornos y formas simples antes de completar detalles adicionales como el color, las formas internas y la textura. Por último, repite el proceso de predicción en varias iteraciones para mejorar la precisión.
Redes neuronales recurrentes
Las redes neuronales recurrentes (RNN) son similares a las CNN, pero pueden procesar una serie de imágenes para encontrar enlaces entre ellas. Si bien las CNN se utilizan para el análisis de imágenes individuales, las RNN pueden analizar videos y comprender las relaciones entre las imágenes.
¿Cuál es la diferencia entre visión artificial y procesamiento de imágenes?
El procesamiento de imágenes utiliza algoritmos para alterar las imágenes, lo que incluye el enfoque, el suavizado, el filtrado o la mejora. La visión artificial es diferente, ya que no cambia una imagen, sino que da sentido a lo que ve y lleva a cabo una tarea, como etiquetar. En algunos casos, puede utilizar el procesamiento de imágenes para modificar una imagen para que un sistema de visión artificial pueda entenderla mejor. En otros casos, se utiliza la visión artificial para identificar imágenes o partes de una imagen y, a continuación, se utiliza el procesamiento de imágenes para modificarla aún más.
¿Cuáles son las tareas comunes que puede realizar la visión artificial?
Clasificación de imágenes
La clasificación de imágenes permite a las computadoras ver una imagen y clasificar con precisión a qué clase pertenece. La visión artificial entiende las clases y las etiqueta, por ejemplo, árboles, aviones o edificios. Un ejemplo es que una cámara puede reconocer rostros en una fotografía y enfocarse en ellos.
Detección de objetos
La detección de objetos es una tarea de visión artificial para detectar y localizar imágenes. Utiliza la clasificación para identificar, ordenar y organizar las imágenes. La detección de objetos se utiliza en procesos industriales y de fabricación para controlar aplicaciones autónomas y supervisar las líneas de producción. Los fabricantes y proveedores de servicios de cámaras domésticas conectadas también confían en la detección de objetos para procesar las transmisiones de video en directo de las cámaras a fin de detectar personas y objetos en tiempo real y proporcionar alertas procesables a los usuarios finales.
Seguimiento de objetos
El seguimiento de objetos utiliza modelos de aprendizaje profundo para identificar y rastrear los elementos que pertenecen a categorías. Tiene varias aplicaciones en el mundo real en varias industrias. El primer elemento del seguimiento de objetos es la detección de objetos; el objeto tiene un cuadro delimitador creado a su alrededor, se le asigna un identificador de objeto y se le puede rastrear a través de marcos. Por ejemplo, el seguimiento de objetos se puede utilizar para supervisar el tráfico en entornos urbanos, la vigilancia humana y la obtención de imágenes médicas.
Segmentación
La segmentación es un algoritmo de visión artificial que identifica un objeto dividiendo sus imágenes en diferentes regiones en función de los píxeles que se ven. La segmentación también simplifica una imagen, por ejemplo, al colocar una forma o un contorno de un elemento para determinar de qué se trata. De este modo, la segmentación también reconoce si hay más de un objeto en una imagen o marco.
Por ejemplo, si hay un gato y un perro en una imagen, se puede utilizar la segmentación para reconocer los dos animales. A diferencia de la detección de objetos, que crea una caja alrededor de un objeto, la segmentación rastrea los píxeles para determinar la forma de un objeto, lo que facilita su análisis y etiquetado.
¿Cómo lo ayuda AWS en sus tareas de visión artificial?
AWS proporciona el conjunto más amplio y completo de servicios de inteligencia artificial y machine learning (IA/ML) conectados a un amplio conjunto de origen de datos para clientes de todos los niveles de experiencia.
Para los clientes que crean marcos y administran su propia infraestructura, optimizamos las versiones de los marcos de aprendizaje profundo más populares, incluidos PyTorch , MXNet y TensorFlow. AWS ofrece una cartera amplia y completa de servicios de aprendizaje automático para infraestructuras de computación, redes y almacenamiento con una variedad de procesadores y aceleradores para satisfacer necesidades únicas de rendimiento y presupuesto.
Para los clientes que desean crear una solución de visión artificial estándar para toda su empresa, Amazon SageMaker facilita la preparación de datos y la creación, el entrenamiento y la implementación de modelos de aprendizaje automático para cualquier caso de uso con infraestructuras, herramientas y flujos de trabajo totalmente gestionados, incluidas ofertas sin código para analistas empresariales.
Para los clientes que carecen de conocimientos de ML, necesitan un tiempo de lanzamiento al mercado más rápido o desean agregar inteligencia a un proceso o una aplicación existentes, AWS ofrece una gama de servicios de visión artificial basados en ML. Estos servicios le permiten agregar inteligencia con facilidad a sus aplicaciones de IA mediante API preentrenadas. Amazon Rekognition automatiza el análisis de imágenes y vídeos con aprendizaje automático y analiza millones de imágenes, transmisiones en directo y vídeos almacenados en cuestión de segundos.
Comience con la visión artificial creando una cuenta gratuita de AWS hoy mismo.