Amazon Rekognition – Preguntas frecuentes

Aspectos generales

P: ¿Qué es Amazon Rekognition?

Amazon Rekognition es un servicio que facilita la incorporación de un potente análisis visual a sus aplicaciones. Rekognition Image le permite crear potentes aplicaciones para la búsqueda, verificación y organización de millones de imágenes. Rekognition Video le permite extraer contexto basado en movimiento de vídeos almacenados o transmitidos en directo, y le ayuda a analizarlos.

Rekognition Video es un servicio de reconocimiento de imagen que detecta objetos, escenas, actividades, lugares emblemáticos, rostros, colores dominantes y calidad de imagen. También extrae texto, reconoce celebridades e identifica contenido inapropiado de las imágenes. Además le permite hacer búsquedas y comparar rostros.

Rekognition Video es un servicio de reconocimiento de video que detecta actividades, comprende el movimiento de las personas en un marco y reconoce objetos, celebridades y contenido inapropiado de vídeos almacenados en Amazon S3 y en transmisiones de video en directo. Rekognition Video permite detectar personas y realizar un seguimiento de ellas a lo largo de un video aunque no se puedan ver sus rostros, o incluso si la persona entra y sale de la escena. Por ejemplo, esta herramienta se podría utilizar en una aplicación que envíe una notificación en tiempo real cuando alguien entrega un paquete en su domicilio. Rekognition Video también le permite indexar metadatos, como objetos, actividades, escenas, lugares emblemáticos, celebridades y rostros para facilitar la realización de búsquedas en imágenes de video.

P: ¿Qué es el aprendizaje profundo?

El aprendizaje profundo es un subcampo del aprendizaje automático y una rama importante de la inteligencia artificial. Su objetivo consiste en inferir abstracciones de nivel superior a partir de datos sin procesar usando un gráfico profundo con numerosas capas de procesamiento compuestas por múltiples transformaciones lineales y no lineales. El aprendizaje profundo está basado libremente en modelos de procesamiento y comunicación de la información en el cerebro. El aprendizaje profundo sustituye características artesanales con aquellas aprendidas a partir de cantidades muy grandes de datos anotados. El aprendizaje se produce estimando de forma repetitiva cientos de miles de parámetros en un gráfico profundo con algoritmos eficaces.

Varias arquitecturas de aprendizaje profundo, como las redes neurales profundas convolucionales (CNN) y las redes neurales recurrentes, se han aplicado a la visión informática, el reconocimiento del habla, el procesamiento del lenguaje natural y el reconocimiento del audio para producir resultados vanguardistas en diversas tareas.

Amazon Rekognition forma parte de la familia de servicios de Amazon AI. Los servicios de Amazon AI utilizan el aprendizaje profundo para comprender imágenes, convertir el texto en habla realista y crear interfaces de conversación de texto y voz intuitivas.

P: ¿Necesito experiencia con el aprendizaje profundo para utilizar Amazon Rekognition?

No. Con Amazon Rekognition, no es necesario crear, mantener ni actualizar canalizaciones de aprendizaje profundo.

Para lograr resultados precisos en tareas de visión informática complejas, como la detección de objetos y escenas, el análisis de rostros y el reconocimiento de rostros, los sistemas de aprendizaje profundo deben perfeccionarse de manera adecuada y entrenarse con cantidades masivas de datos reales de campo etiquetados. El aprovisionamiento, la limpieza y el etiquetado precisos de datos es una tarea cara que requiere mucho tiempo. Además, entrenar una red neural profunda resulta caro en cuanto a recursos informáticos y a menudo requiere que se cree hardware personalizado con unidades de procesamiento gráfico (GPU).

Amazon Rekognition está totalmente administrado y viene preentrenado para realizar tareas de reconocimiento de imágenes y vídeos, por lo que no ha de invertir tiempo y recursos en la creación de una canalización de aprendizaje profundo. Amazon Rekognition sigue mejorando la precisión de sus modelos al desarrollar los nuevos datos de entrenamiento obtenidos mediante el aprovisionamiento y la investigación más recientes. Eso le permite concentrarse en el diseño y desarrollo de aplicaciones de gran valor.

P: ¿Cuáles son los casos de uso más comunes de Amazon Rekognition?

Los casos de uso más comunes de Rekognition Imagen incluyen:

Biblioteca de imágenes buscables
Verificación de usuarios basada en el rostro
Análisis de opiniones
Reconocimiento facial
Moderación de imágenes

Los casos de uso más comunes de Rekognition Video incluyen:

Índice de búsqueda para archivos de vídeo
Filtrado sencillo de vídeo en busca de contenido explícito o sugestivo

P: ¿Cómo puedo comenzar a utilizar Amazon Rekognition?

Si todavía no se inscribió para utilizar Amazon Rekognition, puede hacer clic en el botón “Try Amazon Rekognition” (Probar Amazon Rekognition) de la página de Amazon Rekognition y completar el proceso de inscripción. Debe disponer de una cuenta de Amazon Web Services. Si aún no dispone de una, se le pedirá que la cree cuando inicie el proceso de inscripción. Una vez completada la inscripción, pruebe Amazon Rekognition con sus propias imágenes o vídeos utilizando la consola de administración de Amazon Rekognition o descargue los SDK de Amazon Rekognition para comenzar a crear sus propias aplicaciones. Para obtener más información, consulte nuestra Guía de introducción paso a paso.

P: ¿Qué formatos de imagen y vídeo admite Amazon Rekognition?

En la actualidad, Amazon Rekognition Image admite los formatos de imagen JPEG y PNG. Puede enviar imágenes como objeto de S3 o matriz de bytes. Las operaciones de Amazon Rekognition Video pueden analizar vídeos almacenados en buckets de Amazon S3. El vídeo debe estar codificado con el códec H.264. Los formatos de archivo admitidos son MPEG-4 y MOV. Un códec es software o hardware que comprime los datos para lograr un suministro más rápido y que descomprime los datos recibidos en su forma original. El códec H.264 se utiliza habitualmente para la grabación, compresión y distribución de contenidos de vídeo. Un formato de archivo de vídeo puede contener uno o más códecs. Si su vídeo con formato MOV o MPEG-4 no funciona con Rekognition Video, compruebe si el códec utilizado para codificar el vídeo es el H.264.

P: ¿Qué tamaño de archivos puedo usar con Amazon Rekognition?

Amazon Rekognition Image admite tamaños de archivos de imágenes de hasta 15 MB cuando se envían como objeto de S3, y de hasta 5 MB cuando se envían como matrices de bytes. Amazon Rekognition Video admite archivos de hasta 10 GB y videos de hasta 6 horas de duración cuando se envían como un archivo S3.

P: ¿Cómo influye la resolución de la imagen en la calidad de los resultados de la API de Rekognition Image?

Amazon Rekognition admite una gran variedad de resoluciones de imagen. Para obtener los mejores resultados, recomendamos el uso de una resolución VGA (640x480) o superior. Si la resolución es inferior a QVGA (320x240), hay bastantes probabilidades de que no puedan identificarse rostros, objetos o contenido inapropiado, aunque Amazon Rekognition acepta cualquier imagen que tenga al menos 80 píxeles en ambas dimensiones.

P: ¿Cuál es el tamaño mínimo que puede tener un objeto para que Amazon Rekognition Image lo detecte y analice?

Como regla general, asegúrese de que el objeto o rostro más pequeño presente en la imagen tenga al menos el 5 % del tamaño (en píxeles) de la dimensión más corta de la imagen. Por ejemplo, si trabaja con una imagen de 1600x900, el objeto o rostro más pequeño debería tener al menos 45 píxeles en cada dimensión.

P: ¿Cómo puede hacer que los humanos revisen las predicciones de Amazon Rekognition?

Amazon Rekognition está directamente integrada con Amazon Augmented AI (Amazon A2I) para que pueda redirigir fácilmente las predicciones de baja confianza de la imagen de Amazon Rekognition a los revisores humanos. Utilizando la API de Amazon Rekognition para la moderación de contenido o la consola de Amazon A2I, puede especificar las condiciones bajo las cuales Amazon A2I dirige las predicciones a los revisores, que pueden ser un umbral de confianza o un porcentaje de muestras aleatorias. Si especifica un umbral de confianza, Amazon A2I redirige solo aquellas predicciones que caen por debajo del umbral para la revisión humana. Puede modificar estos umbrales en cualquier momento para lograr el equilibrio justo entre precisión y rentabilidad. Por otro lado, si especifica un porcentaje de muestra, Amazon A2I redirige una muestra aleatoria de las predicciones para la revisión humana. Esto puede ayudarle a implementar auditorías para monitorear su precisión con regularidad. Amazon A2I también ofrece a los revisores una interfaz web que consta de todas las instrucciones y las herramientas que necesitan para completar sus tareas de revisión. Para obtener más información sobre cómo implementar la revisión humana con Amazon Rekognition, consulte la página web Amazon A2I.

P: ¿Cómo influye la resolución del vídeo en la calidad de los resultados de la API de Rekognition Video?

El sistema está programado para reconocer rostros con un tamaño superior a 32 píxeles (en la dimensión más reducida), que se traduce en un tamaño mínimo para el reconocimiento de un rostro que varía entre aproximadamente 1/7 de la dimensión más reducida de la pantalla con una resolución QVGA hasta 1/30 con una resolución HD 1080p. Por ejemplo, con una resolución VGA, los usuarios deben esperar rendimientos más bajos para rostros con un tamaño inferior a 1/10 de la dimensión más reducida de la pantalla.

P: ¿Qué otros factores pueden influir en la calidad de las API de Rekognition Video?

Además de la resolución del vídeo, un desenfoque importante, personas moviéndose de forma rápida, las condiciones de iluminación y la postura pueden influir en la calidad de las API.

P: ¿Cuál es el contenido de vídeo para usuarios más adecuado para las API de Rekognition Video?

Esta API funciona mejor con vídeos de aficionados y profesionales obtenidos con un campo frontal de visión con condiciones normales de color e iluminación. Esta API no se ha comprobado para imágenes en blanco y negro, IR o condiciones de iluminación extremas. Se recomienda que las aplicaciones sensibles a falsas alarmas desechen las imágenes con un nivel de confianza inferior a un nivel de confianza seleccionado (específico para cada aplicación).

P. ¿En qué regiones de AWS se encuentra disponible Amazon Rekognition?

Para obtener una lista de todas las regiones en las que está disponible Amazon Rekognition, consulte la tabla de regiones de AWS.

Detección de etiquetas

P: ¿Qué es una etiqueta?

Una etiqueta es un objeto, una escena o un concepto que se encuentra en una imagen basados en sus contenidos. Por ejemplo, una foto de varias personas en una playa tropical puede contener etiquetas como "Person", "Water", "Sand", "Palm Tree" y "Swimwear" (objetos), "Beach" (escena) y "Outdoors" (concepto).

P: ¿Qué es la puntuación de confianza y cómo puedo utilizarla?

Una puntuación de confianza es un número entre 0 y 100 que indica la probabilidad de que una predicción determinada sea correcta. En el ejemplo de la playa tropical, si el proceso de detección de objetos y escenas muestra una puntuación de confianza de 99 para la etiqueta "Water" y 35 para la etiqueta "Palm Tree", es más probable que la imagen contenga agua pero no una palmera.

Las aplicaciones muy sensibles a los errores de detección (positivos falsos) deberían descartar los resultados asociados con las puntuaciones de confianza por debajo de un umbral determinado. El umbral óptimo depende de la aplicación. En muchos casos, obtendrá la mejor experiencia para los usuarios si configura los valores de confianza mínima por encima del valor predeterminado.

P: ¿Qué es la detección de objetos y escenas?

La detección de objetos y escenas se refiere al proceso de analizar una imagen o video para asignar etiquetas en función de su contenido visual. Amazon Rekognition Image lo hace a través de la API DetectLabels. Esta API le permite identificar automáticamente miles de objetos, escenas y conceptos y muestra una puntuación de confianza para cada etiqueta. DetectLabels utiliza un umbral de confianza predeterminado de 50. La detección de objetos y escenas es ideal para clientes que desean buscar y organizar bibliotecas de imágenes de gran tamaño, incluidas aplicaciones de consumo y estilo de vida que dependen del contenido generado por los usuarios y compañías tecnológicas que desean mejorar sus algoritmos de focalización.

P: ¿Amazon Rekognition puede detectar las ubicaciones de los objetos y devolver cuadros delimitadores?

Sí, Amazon Rekognition puede detectar la ubicación de muchos objetos comunes como “Persona”, “Auto”, “Pistola” o “Perro” tanto en imágenes como en videos. Obtiene las coordenadas a partir del rectángulo delimitador para cada instancia de objeto encontrada, así como una puntuación del nivel de confianza. Para más detalles sobre la estructura de respuesta de la API para cuadros delimitadores de objetos, consulte la documentación.

P: ¿Amazon Rekognition puede proporcionar información sobre la relación entre las etiquetas detectadas?

Sí. Para cada etiqueta que encuentra, Amazon Rekognition devuelve su elemento principal, su alias y su categoría, si existen. Los elementos principales se devuelven en el campo “parents” (elementos principales) en orden jerárquico. La primera etiqueta principal es el elemento principal inmediato, mientras que las siguientes etiquetas son los elementos principales de elementos principales. Por ejemplo, cuando se identifica un “Car” (Auto), Amazon Rekognition devuelve dos etiquetas principales: “Vehicle” (Vehículo), la principal, y “Transport” (Transporte), la principal de la principal. Las etiquetas de alias con el mismo significado que las etiquetas principales se devuelven en el campo “alias” (alias). Por ejemplo, ya que “Cell Phone” (Teléfono celular) es un alias de “Mobile Phone” (Teléfono móvil), Amazon Rekognition devuelve“Cell Phone” (Teléfono celular) en el campo “alias” (alias) de una etiqueta “Mobile Phone” (Teléfono móvil). Las etiquetas de grupos de categorías se basan en temas comunes y se devuelven en el campo “categories” (categorías). Por ejemplo, ya que “Dog” (Perro) es una etiqueta que se encuentra en la categoría “Animals and Pets” (Animales y mascotas), Amazon Rekognition devuelve “Animal and Pets” (Animal y mascotas) en el campo “categories” (categorías) de una etiqueta “Dog” (Perro). Para obtener más información sobre una lista completa de etiquetas compatibles y su taxonomía, consulte la documentación de detección de etiquetas de Amazon Rekognition.

P: ¿Qué tipos de etiquetas admite Amazon Rekognition?

Rekognition admite miles de etiquetas que pertenecen a categorías comunes incluidas, entre otras:

Personas y eventos: "Wedding", "Bride", "Baby", "Birthday Cake", "Guitarist", etc.
Alimentos y bebida: "Apple", "Sandwich", "Wine", "Cake", "Pizza", etc.
Naturaleza y aire libre: "Beach", "Mountains", "Lake", "Sunset", "Rainbow", etc.
Animales y mascotas: "Dog", "Cat", "Horse", "Tiger", "Turtle", etc.
Hogar y jardín: "Bed", "Table", "Backyard", "Chandelier", "Bedroom", etc.
Deportes y ocio: "Golf", "Basketball", "Hockey", "Tennis", "Hiking", etc.
Plantas y flores: "Rose", "Tulip", "Palm Tree", "Forest", "Bamboo", etc.
Arte y entretenimiento: "Sculpture", "Painting", "Guitar", "Ballet", "Mosaic", etc.
Transporte y vehículos: "Airplane", "Car", "Bicycle", "Motorcycle", "Truck", etc.
Electrónica: “Computer”, “Mobile Phone”, “Video Camera”, “TV”, “Headphones”, etc.
Lugares emblemáticos: “Brooklyn Bridge”, “Colosseum”, “Eiffel Tower”, “Machu Picchu”, “Taj Mahal”, etc.

Q. ¿En qué se diferencia la detección de objetos y de escenas para el análisis de videos?

Rekognition Video le permite identificar de forma automática miles de objetos, como vehículos y mascotas, y actividades, como celebraciones o bailes, y le ofrece indicaciones de fecha y hora y una puntuación del nivel de confianza para cada etiqueta. También se basa en el movimiento y en el contexto temporal del video para identificar de forma precisa actividades complejas, como «soplar una vela» o «apagar un fuego».

P: No encuentro la etiqueta que necesito. ¿Cómo puedo solicitar una etiqueta nueva?

Envíenos sus solicitudes de etiquetas a través de la consola de Amazon Rekognition. Para ello, escriba el nombre de la etiqueta en el campo de entrada de la sección “Search all labels” (Buscar todas las etiquetas) y haga clic en “Request Rekognition to detect the requested label” (Solicitud para que Rekognition detecte la etiqueta solicitada). Amazon Rekognition amplía constantemente su catálogo de etiquetas en función de los comentarios de los clientes.

P: ¿Qué es Propiedades de imagen?

Propiedades de imagen es una característica de Amazon Rekognition Image que detecta colores dominantes y calidad de imagen. Propiedades de imagen detecta colores dominantes de una imagen completa, del primer plano, del fondo y de los objetos mediante cuadros delimitadores localizados. Propiedades de imagen también mide la calidad de imagen mediante las puntuaciones de brillo, nitidez y contraste. Esta característica se puede activar mediante la API de DetectLabels con IMAGE_PROPERTIES como parámetro de entrada, o con el parámetro de entrada GENERAL_LABEL o sin este para la detección de etiquetas. Para obtener más información, consulte la documentación de detección de etiquetas de Amazon Rekognition.

P: ¿Cómo se determina cuáles son los colores dominantes?

Propiedades de imagen devuelve los colores dominantes en cuatro formatos: RGB, colores web, color CSS y colore simplificados. Amazon Rekognition primero identifica los colores dominantes mediante el porcentaje de píxeles y, luego, los asigna a la paleta de 140 colores CSS, RGB, colores web y 12 colores simplificados (es decir, “verde”, “rosa”, “negro”, “rojo”, “amarillo”, “cian”, “marrón”, “anaranjado”, “blanco”, “púrpura”, “azul” y “gris”). Por defecto, Propiedades de imagen devuelve diez (10) colores dominantes, a menos que los clientes especifiquen la cantidad de colores que quieren que se devuelvan. La cantidad máxima de colores dominantes que la API puede devolver es de 12.

P: ¿Cómo interpreto las puntuaciones de brillo, nitidez y contraste?

Propiedades de imagen proporciona un valor que varía del 0 al 100 para cada puntuación de brillo, nitidez y contraste. Por ejemplo, una imagen con poca exposición devuelve una puntuación de brillo baja, mientras que, una imagen con iluminación brillante, una de brillo alto.

P: ¿Cómo se puede comprobar si Amazon Rekognition ha actualizado sus modelos?

Amazon Rekognition devuelve un parámetro de LabelModelVersion que le permite saber si el modelo se ha actualizado. Los modelos de detección de objetos y escenas se actualizan con frecuencia en función de los comentarios de los clientes.

Etiquetas personalizadas de Amazon Rekognition

P: ¿Puede usar etiquetas personalizadas para analizar rostros o detectar texto personalizado?

No. Las etiquetas personalizadas sirven para encontrar objetos y escenas en imágenes. Las etiquetas personalizadas no están diseñadas para analizar rostros o detectar texto personalizado. Para estas tareas debería usar otras API de Rekognition. Consulte la documentación para el análisis de rostros o la detección de textos.

P: ¿Puedo utilizar etiquetas personalizadas para encontrar contenido inseguro de imágenes?

Sí. Las etiquetas personalizadas sirven para encontrar objetos y escenas en imágenes. Cuando se entrenan para detectar contenido inseguro en imágenes específicas de su caso de uso, las etiquetas personalizadas pueden detectar contenido inseguro en imágenes específicas de dicho caso de uso. Consulte también la documentación de la API de moderación para detectar contenido genérico inseguro en imágenes.

P: ¿Cuántas imágenes se requieren para entrenar un modelo personalizado?

La cantidad de imágenes requeridas para entrenar un modelo personalizado depende de la variabilidad de las etiquetas personalizadas que desea modelar para predecir y la calidad de los datos de entrenamiento. Por ejemplo, se puede detectar un logotipo distinto superpuesto sobre una imagen con 1-2 imágenes de entrenamiento, mientras que un logotipo más sutil que se debe detectar bajo cualquier variación (escala, punto de vista, deformaciones) puede requerir decenas o cientos de ejemplos de entrenamiento con anotaciones de alta calidad. Si ya tiene un alto número de imágenes etiquetadas, recomendamos entrenar un modelo con tantas imágenes como haya disponibles. Consulte la documentación para conocer los límites máximos del tamaño de conjunto de datos de entrenamiento.

Si bien en ocasiones se pueden requerir cientos de imágenes para entrenar un modelo de cliente con alta precisión, con las etiquetas personalizadas puede antes entrenar un modelo con decenas de imágenes por etiquetas, revise los resultados de su prueba para comprender dónde no funciona, y en consecuencia agregue nuevas imágenes de entrenamiento y entrene nuevamente para mejorar su modelo de manera iteractiva.

P: ¿Cuántos recursos de informática de inferencia debería suministrar para mi modelo personalizado?

La cantidad de recursos informáticos de inferencia paralelos que se requieren depende de cuántas imágenes necesite para procesar en un punto de tiempo determinado. El resultado de un solo recurso dependerá de factores que incluyen el tamaño de las imágenes, la complejidad de esas imágenes (cuántos objetos detectados están visibles) y la complejidad de su modelo personalizado. Recomendamos que controle la frecuencia con la que requiere suministrar su modelo personalizado, y la cantidad de imágenes que se deben procesar de una sola vez, a fin de programar el suministro de su modelo personalizado más eficiente.
Si espera procesar las imágenes en forma periódica (por ejemplo, una vez al día o por semana, o en horarios programados durante el día), debe comenzar aprovisionando su modelo personalizado en horarios programados, procesar todas sus imágenes y luego detener el aprovisionamiento. Si no detiene el aprovisionamiento, se le cobrará incluso si no se procesan imágenes.

P: Mi capacitación ha fallado. ¿Deberé pagar?

No. No deberá pagar por los recursos informáticos si la capacitación falla.

Moderación de contenido

P: ¿Qué es la moderación de contenido?

La API de moderación de contenido de Amazon Rekognition usa aprendizaje profundo para detectar contenido explícito o sugerente, contenido violento, armas, contenido visualmente perturbador, drogas, alcohol, tabaco, símbolos de odio, juegos de azar y gestos inapropiados en imágenes y videos. Además de marcar una imagen o video de acuerdo con la presencia de contenido inapropiado u ofensivo, Amazon Rekognition también devuelve una lista jerárquica de etiquetas con puntuaciones de confianza. Estas etiquetas indican subcategorías específicas del tipo de contenido detectado, lo que proporciona un mayor control granular a los desarrolladores para filtrar y administrar grandes volúmenes de contenido generado por el usuario (UGC). Esta API puede utilizarse en flujos de trabajo de moderación para aplicaciones como sitios de redes sociales y de citas, plataformas de intercambio de fotos, blogs y foros, aplicaciones para niños, sitios de comercio electrónico, entretenimiento y servicios de publicidad en línea.

P: ¿Qué tipos de contenido inapropiado, ofensivo y no deseado detecta Amazon Rekognition?

Puede encontrar una lista completa de las categorías que detecta Amazon Rekognition aquí.

Amazon Rekognition devuelve una jerarquía de etiquetas, así como una puntuación de confianza para cada etiqueta detectada. Por ejemplo, si encuentra una imagen inapropiada, Rekognition puede devolver "Desnudo explícito" con una puntuación de confianza de etiqueta de nivel superior. Los desarrolladores pueden usar estos metadatos para marcar contenido con un alto nivel, por ejemplo, cuando deben marcarse todos los tipos de contenido explícito para adultos. En la misma respuesta, Rekognition también devuelve el segundo nivel de granularidad y proporciona un contexto adicional, como "Desnudo masculino explícito", con su propia puntuación de confianza. Los desarrolladores pueden utilizar esta información para crear una lógica de filtrado más compleja según la geografía o demografía.

Tenga en cuenta que la API de moderación de imágenes no es una autoridad ni pretende ser un filtro exhaustivo de contenido inapropiado y ofensivo. Además, esta API no detecta si una imagen incluye contenido ilegal (como pornografía infantil) o contenido adulto no natural.

Si necesita detectar otros tipos de contenido inapropiado en las imágenes, contáctese con nosotros mediante el proceso de comentarios descrito más adelante en esta sección.

P: ¿Cómo puedo averiguar cuál es la versión del modelo que estoy usando actualmente?

Amazon Rekognition mejora continuamente sus modelos. Para saber cuál es la versión del modelo, puede usar el campo “ModerationModelVersion” en la respuesta de la API.

P: ¿Cómo puedo asegurarme de que Amazon Rekognition cumpla los estándares de precisión de mi caso de uso de moderación de imágenes o videos?

Los modelos de moderación de imágenes de Amazon Rekognition se han sometido a pruebas y se han ajustado, pero recomendamos que mida la precisión de sus propios conjuntos de datos para valorar el desempeño.

Puede utilizar el parámetro "MinConfidence" en las solicitudes de API para equilibrar la detección de contenido (recall) frente a la precisión de la detección (precision). Si reduce "MinConfidence", es probable que detecte la mayor parte del contenido inapropiado, pero también es probable que recoja contenido que no sea realmente inapropiado. Si aumenta "MinConfidence", es probable que se asegure de que todo el contenido detectado sea realmente inapropiado, pero algunos contenidos podrían no etiquetarse.

P. ¿Cómo puedo enviar comentarios a Rekognition para mejorar sus API de moderación de contenidos?

Envíenos sus solicitudes a través del servicio de atención al cliente de AWS. Amazon Rekognition amplía continuamente los tipos de contenido inapropiado detectado en función de los comentarios de los clientes. Tenga en cuenta que los contenidos ilegales (como la pornografía infantil) no serán aceptados a través de este proceso.

Análisis facial

P: ¿Qué es el análisis facial?

El análisis facial es el proceso de detección de un rostro en una imagen y la extracción de atributos faciales relevantes del mismo. Amazon Rekognition Image ofrece recuadros que rodean cada rostro detectado en una imagen junto con atributos como el sexo, la presencia de gafas de sol y puntos de referencia del rostro. Rekognition Video ofrecerá los rostros detectados en un vídeo con indicaciones de fecha y hora, y para cada rostro detectado, la posición y un recuadro que rodeará cada rostro con los puntos de referencia del rostro.

P: ¿Qué atributos faciales puedo obtener de Amazon Rekognition?

Amazon Rekognition muestra los siguientes atributos faciales para cada rostro detectado, así como un recuadro que lo rodea y una puntuación de confianza para cada atributo:

Sexo
Sonrisa
Emociones
Gafas
Gafas de sol
Ojos abiertos
Boca abierta
Bigote
Barba
Postura
Calidad
Puntos de referencia del rostro

P: ¿Qué es la postura del rostro?

La postura del rostro se refiere a la rotación del rostro detectado en los ejes de inclinación, balanceo y oscilación. Cada uno de estos parámetros se muestra como ángulo entre -180 y +180 grados. La postura del rostro se puede utilizar para encontrar la orientación del polígono que rodea el rostro (en lugar del recuadro que lo rodea), para medir la deformación, monitorizar rostros con precisión y más.

P: ¿Qué es la calidad del rostro?

La calidad del rostro describe la calidad de la imagen del rostro detectado con dos parámetros: nitidez y brillo. Ambos parámetros se muestran como valores entre 0 y 1. Puede aplicar un umbral a estos parámetros para filtrar rostros bien iluminados y nítidos. Esto resulta útil para aplicaciones que se benefician de imágenes de gran calidad, como la comparación de rostros y el reconocimiento de rostros.

P: ¿Qué son los puntos de referencia del rostro?

Los puntos de referencia del rostro son un conjunto de puntos prominentes, normalmente localizados en las esquinas, puntas o puntos centrales de componentes principales del rostro, como los ojos, la nariz y la boca. La API DetectFaces de Amazon Rekognition muestra un conjunto de puntos de referencia del rostro que se pueden utilizar para recortar rostros, cambiar un rostro por otro, superponer marcas personalizadas para crear filtros personalizados, y más.

P: ¿Cuántos rostros se pueden detectar en una imagen?

Con Amazon Rekognition, se pueden detectar hasta 100 rostros en una imagen.

Q. ¿En qué se diferencia el análisis facial para el análisis de vídeo?

Con Rekognition Video, puede localizar rostros en un vídeo y analizar atributos faciales, como si la persona está sonriendo, si tiene los ojos abiertos o si muestra emociones. Rekognition Video ofrecerá los rostros detectados con indicaciones de fecha y hora, y para cada rostro detectado, la posición y un recuadro que rodeará cada rostro con los puntos de referencia del rostro, como el ojo izquierdo, el ojo derecho, la esquina izquierda de la boca y la esquina derecha de la boca. Esta información de la posición y de la fecha y hora se puede utilizar para realizar un seguimiento de la actitud del usuario en el tiempo y para ofrecer funciones adicionales, como marcos automáticos para rostros, identificación de aspectos destacados o zonas recortadas. No se admite la búsqueda de usuarios para el análisis de video.

P: Además de la resolución del video, ¿qué otros factores pueden influir en la calidad de las API de Rekognition Video?

Además de la resolución del vídeo, la calidad y los rostros representativos, las colecciones de las partes del rostro que se pretenden buscar, tienen una gran influencia. El uso de diferentes instancias de rostros para cada persona, con variaciones como barbas, gafas, posturas (perfil y frontal) mejorarán el rendimiento de forma significativa. Normalmente, los videos con personas que se mueven de forma rápida pueden tener un menor número de recuperaciones. Además, los videos con imágenes borrosas pueden tener una calidad inferior.

Comparación de rostros

P: ¿Qué es la comparación de rostros?

La comparación de rostros es el proceso de comparar un rostro con uno o más rostros para medir la similitud. Mediante la API de CompareFaces, Amazon Rekognition Image le permite medir la probabilidad de que dos rostros de dos imágenes pertenezcan a la misma persona. La API compara un rostro en la imagen de entrada de origen con cada rostro detectado en la imagen de entrada de destino y muestra una puntuación de similitud para cada comparación. También aparece un recuadro que rodea el rostro y una puntuación de confianza para cada rostro detectado. Puede utilizar la comparación de rostros para verificar la identidad de una persona comparando su foto de empleado registrada en casi tiempo real.

P: ¿Puedo utilizar una imagen de origen con más de un rostro?

Sí. Si la imagen de origen contiene varios rostros, CompareFaces detecta el rostro de mayor tamaño y lo compara con cada rostro detectado en la imagen de destino.

P: ¿Con cuántos rostros puedo realizar la comparación?

Puede comparar un rostro en la imagen de origen con un máximo de 15 rostros detectados en la imagen de destino.

Búsqueda de rostros

P: ¿Qué es Face Search?

Face Search es el proceso de utilizar una cara de origen para buscar coincidencias similares en una colección de rostros almacenados. Con la búsqueda de rostros, puede crear aplicaciones con facilidad, como la autenticación multifactor para pagos bancarios, la entrada automatizada al edificio para empleados, y más.

P: ¿Qué es una colección de rostros y cómo puedo crear una?

Una colección de rostros es el índice de vectores de rostros en el que se pueden realizar búsquedas, que son una representación matemática de rostros. Rekognition no almacena imágenes de rostros en su colección. Con la API CreateCollection, puede crear, de manera sencilla, una colección en una región de AWS admitida y obtener un nombre de recursos de Amazon (ARN). Cada colección de rostros tiene un CollectionId asociado.

P: ¿Cómo agrego rostros a una colección para realizar búsquedas?

Para agregar un rostro a una colección de rostros existente, utilice la API IndexFaces. Esta API acepta una imagen en formato de objeto de S3 o matriz de bytes y agrega una representación vectorial de los rostros detectados en la colección. IndexFaces también muestra un FaceId único y recuadro que rodea al rostro para cada vector de rostro añadido.

Se pueden agregar varios vectores faciales de la misma persona para crear y almacenar vectores de usuario mediante las API CreateUser y AssociateFaces. Los vectores de usuario son representaciones más sólidas que los vectores de un solo rostro porque contienen vectores de múltiples rostros con diferentes grados de iluminación, nitidez, poses, diferencias de apariencia, etc. La búsqueda de rostros con vectores de usuario puede mejorar significativamente la precisión en comparación con la búsqueda de rostros con vectores de un solo rostro. Los vectores de usuario se almacenan en la misma colección que los vectores de rostro asociados.

P: ¿Cómo elimino rostros de una colección?

Para eliminar un rostro de una colección de rostros existente, utilice la API DeleteFaces. Esta API funciona en la colección de rostros proporcionada (con un CollectionId) y elimina las entradas correspondientes a la lista FaceIds. Si el FaceID está asociado a un vector de usuario, primero tendrá que usar la llamada a la API DisassociateFaces para eliminarlo del vector de usuario. Como alternativa, puede eliminar el vector de usuario de la colección mediante la API DeleteUser.

Para obtener más información sobre cómo agregar y eliminar rostros, consulte nuestro ejemplo sobre la administración de colecciones.

P: ¿Cómo puedo buscar un usuario en una colección de rostros?

Una vez que haya creado los usuarios y asociado los FaceID, puede buscar mediante una imagen (SearchUsersByImage), un UserId (SearchUsers) o un FaceID (SearchUsers). Estas API toman un rostro de origen y muestran un conjunto de usuarios que coinciden con él, ordenados de mayor a menor puntuación de similitud. Para obtener más información, consulte nuestro ejemplo sobre búsqueda de usuarios.

P: ¿Cómo puedo buscar un rostro en una colección de rostros?

Una vez que haya creado una colección de rostros indexada, puede buscar un rostro en ella con una imagen (SearchFaceByImage) o un ID de rostro (SearchFaces). Estas API toman un rostro de origen y muestran un conjunto de rostros que coinciden con él, ordenados de mayor a menor puntuación de similitud. Para obtener más información, consulte nuestro ejemplo sobre búsqueda de rostros.

P: ¿En qué se diferencia Face Search del análisis de video?

Rekognition Video le permite realizar búsquedas de rostros en tiempo real mediante comparaciones con colecciones de decenas de millones de rostros. En primer lugar, debe crear una colección de rostros donde poder almacenar rostros, es decir, representaciones vectoriales de características faciales. A continuación, Rekognition busca en la colección rostros visualmente similares que aparezcan en el video. Rekognition mostrará una puntuación de confianza para cada uno de los rostros del video, de manera que pueda mostrar coincidencias probables en su aplicación. No se admite la búsqueda de usuarios para el análisis de video.

P: Además de la resolución del video, ¿qué otros factores pueden influir en la calidad de las API de Video?

Además de la resolución del vídeo, la calidad y los rostros representativos, las colecciones de las partes del rostro que se pretenden buscar, tienen una gran influencia. El uso de diferentes instancias de rostros para cada persona, con variaciones como barbas, gafas, posturas (perfil y frontal) mejorarán el rendimiento de forma significativa. Normalmente, los vídeos con personas que se mueven de forma rápida pueden tener un menor número de recuperaciones. Además, los vídeos con imágenes borrosas pueden tener una calidad inferior.

Reconocimiento de famosos

P: ¿Qué es el reconocimiento de famosos?

Celebrity Recognition (reconocimiento de famosos) de Amazon Rekognition es una API fácil de utilizar basada en el aprendizaje profundo que sirve para la detección y el reconocimiento de personas famosas, destacadas o importantes en su ámbito. La API RecognizeCelebrities ha sido diseñada para funcionar a escala y reconocer a famosos de una serie de categorías, como la política, los deportes, los negocios, el entretenimiento y los medios. Nuestra característica de reconocimiento de famosos es perfecta para clientes que deseen indexar y buscar famosos en sus bibliotecas digitales de imágenes según sus intereses particulares.

P: ¿A quién se puede identificar con la API Celebrity Recognition?

Amazon Rekognition solo puede identificar a famosos cuyo reconocimiento se haya programado en los modelos de aprendizaje profundo. Tenga en cuenta que la API RecognizeCelebrities no es, ni pretende ser, una fuente de referencia ni una lista exhaustiva de famosos. La característica se ha diseñado para incluir tantos famosos como sea posible, según las necesidades y los comentarios de nuestros clientes. Estamos añadiendo nombres nuevos constantemente, pero el hecho de que el Reconocimiento de famosos no reconozca a personas que podrían ser consideradas como tales por determinados grupos o por nuestros clientes no refleja nuestra opinión sobre su celebridad. Si desea que el reconocimiento de famosos identifique a determinadas personas, envíenos sus comentarios.

P: ¿Una persona famosa que sea identificada a través de la API de Amazon Rekognition puede solicitar su eliminación?

Sí. Si una persona famosa desea que se la quite de la característica, puede enviar un correo electrónico al servicio de atención al cliente de AWS para que procesemos su solicitud.

P: ¿De qué fuentes se dispone para aportar información adicional sobre un famoso?

La API admite una lista opcional de fuentes para ofrecer información adicional sobre el famoso, como parte de sus resultados. Actualmente ofrecemos la URL de IMDB, cuando está disponible. Es posible que más adelante añadamos otras fuentes.

P: ¿En qué se diferencia el reconocimiento de famosos para el análisis de video?

Con Rekognition Video, podrá detectar y reconocer cuándo y dónde aparecen personas conocidas en un video. La salida con tiempo codificado incluye el nombre y el identificador único de la persona famosa, las coordenadas del recuadro que rodea el rostro, la puntuación de confianza y las direcciones URL con contenido relacionado con el famoso, por ejemplo, el enlace a IMDB. En ocasiones, también se puede detectar al personaje famoso incluso si su rostro aparece oculto en el vídeo. Esta función le permite indexar y realizar búsquedas en videotecas digitales para casos de uso relacionados con sus necesidades audiovisuales y de marketing específicas.

P: Además de la resolución del vídeo, ¿qué otros factores pueden influir en la calidad de las API de Rekognition Video?

Los vídeos con famosos moviéndose muy deprisa o con imágenes borrosas pueden afectar a la calidad de las API de Rekognition Video. Además, un maquillaje muy pronunciado y los atuendos de camuflaje que utilizan habitualmente los actores y actrices también pueden afectar a la calidad.

Detección de texto

P: ¿Qué es la detección de texto?

La detección de texto es la capacidad de Amazon Rekognition que le permite detectar y reconocer texto dentro de una imagen o un video, como nombres de calles, subtítulos, nombres de productos, gráficos superpuestos, subtítulos de video y placas de vehículos. La detección de texto está diseñada específicamente para trabajar con imágenes y videos del mundo real, en lugar de imágenes de documentos. La API DetectText de Amazon Rekognition incorpora una imagen y devuelve la etiqueta del texto y un recuadro delimitador para cada cadena de caracteres detectada, junto con una puntuación de confianza. Por ejemplo, en aplicaciones para compartir imágenes y de redes sociales, puede activar la búsqueda visual mediante un índice de imágenes que contenga las mismas etiquetas de texto. En aplicaciones de seguridad, puede identificar vehículos basados en números de matrícula de imágenes tomadas por cámaras de tráfico. Del mismo modo, en el caso de los vídeos, mediante las API StartTextDetection y GetTextDetection, puede detectar texto y obtener puntuaciones de confianza y marcas temporales para cada detección. En aplicaciones de medios y entretenimiento, puede crear metadatos de texto para admitir la búsqueda de contenido relevante como noticias, resultados deportivos, propagandas y títulos. También puede revisar el texto detectado en busca de violaciones de políticas o de incumplimiento, por ejemplo, una dirección de correo electrónico o un número de teléfono que haya sido sustituido por spammers.

P: ¿Qué tipo de texto admite la detección de texto de Amazon Rekognition?

La detección de texto está diseñada específicamente para trabajar con imágenes reales en vez de con imágenes de documentos. Reconoce textos en la mayoría de los alfabetos latinos y números incluidos en una amplia variedad de diseños, fuentes y estilos, por más que estén superpuestos en objetos en segundo plano con varias orientaciones, como anuncios y pósteres. La detección de texto reconoce hasta 50 secuencias de caracteres por imagen o cuadro de video y los enumera como palabras y líneas. La detección de texto admite texto rotado desde -90 hasta +90 grados desde el eje horizontal.

P: ¿Puedo limitar la detección de texto a regiones específicas de una imagen o un cuadro de vídeo?

Sí, puede utilizar las opciones de filtrado de detección de texto para especificar hasta 10 regiones de interés (ROI) en la solicitud de API. Amazon Rekognition solo devolverá el texto que se encuentre dentro de estas regiones.

P: ¿Puedo filtrar las detecciones de texto según la confianza de las palabras o el tamaño del recuadro delimitador?

Sí, en la solicitud de la API puede utilizar las opciones de filtrado de detección de texto para especificar los valores límite de las puntuaciones mínimas de confianza o las dimensiones mínimas de los recuadros delimitadores.

P: ¿Cómo puedo enviar comentarios a Rekognition para mejorar el reconocimiento de texto?

Envíenos sus solicitudes a través de Soporte para clientes de AWS. Amazon Rekognition amplía continuamente los tipos de contenido con texto reconocido en función de los comentarios de los clientes.

Detección de EPP

P: ¿Qué equipo de protección personal (EPP) puede detectar Amazon Rekognition?

“DetectProtectiveEquipment” de Amazon Rekognition puede detectar tipos comunes de protecciones para el rostro, para las manos y para la cabeza. Para obtener más información, consulte la documentación de la característica. También puede utilizar las etiquetas personalizadas de Amazon Rekognition para detectar EPP como chalecos de alta visibilidad, gafas de seguridad y otro tipo de EPP específico de su negocio. Para obtener más información sobre cómo puede utilizar las etiquetas personalizadas de Amazon Rekognition para la detección de EPP personalizado, visite este repositorio de github.

P: ¿Amazon Rekognition puede detectar las ubicaciones de equipo de protección y devolver cuadros delimitadores?

Sí, la API “DetectProtectiveEquipment” de Amazon Rekognition puede detectar la ubicación de equipo de protección como protectores para el rostro, para las manos y para la cabeza que en imágenes. Obtiene las coordenadas a partir de la caja rectangular delimitadora para cada equipo de protección detectado, así como una puntuación del nivel de confianza. Para obtener más información sobre la respuesta de la API, consulte la documentación.

P: ¿Puede detectar el servicio si una máscara se lleva colocada correctamente?

La salida de la API “DetectProtectiveEquipment” de Amazon Rekognition brinda el valor (verdadero o falso) “CoversBodyPart” y un valor de confianza para el valor booleano por cada objeto de protección personal detectado. De este modo, el servicio brinda información sobre si el equipo de protección está colocado en la parte del cuerpo correspondiente. La predicción de la presencia de equipo de protección en la parte del cuerpo correspondiente ayuda a filtrar aquellos casos en los que el EPP se muestra en la imagen pero la persona no lo lleva. Sin embargo, esto no indica ni implica que la persona esté protegida de forma adecuada por el equipo de protección o que este se lleve de forma correcta.

P: ¿Puede la detección de EPP de Amazon Rekognition identificar a las personas detectadas?

No, la detección de EPP de Amazon Rekognition no realiza reconocimiento facial ni comparación facial y no puede identificar a las personas detectadas.

P: ¿Dónde puedo encontrar más información acerca de los límites de la API y la latencia?

Consulte la documentación de la detección de EPP de Amazon Rekognition para acceder a la información más reciente sobre los límites de la API y la latencia.

P: ¿Cómo envío imágenes desde las cámaras de mi lugar de trabajo a Amazon Rekognition?

Tiene varias opciones para enviar imágenes para analizar desde las cámaras de su lugar de trabajo. Consulte la publicación de blog sobre la detección de EPP de Amazon Rekognition para obtener más información.

P: ¿Cuál es el precio de la detección de EPP?

La detección de EPP de Amazon Rekognition tiene un precio similar a otras API de imagen de Amazon Rekognition que se facturan por imagen. Para obtener más información, visite la página de precios de Amazon Rekognition.

Eventos de streaming de video de Amazon Rekognition

P: ¿Qué son los eventos de streaming de video de Amazon Rekognition?
Los eventos de streaming de vídeo de Amazon Rekognition utilizan machine learning para detectar objetos de la cámara conectada con el objetivo de proporcionar alertas procesables en tiempo real. Los eventos de streaming video de Amazon Rekognition trabajan con sus trasmisiones de video de Kinesis nuevas y existentes para procesar secuencias de video (hasta 120 segundos por evento de movimiento) y le notifica tan pronto como se detecte un objeto de interés deseado. Puede usar estas notificaciones para

enviar alertas inteligentes a sus usuarios finales, como “se detectó un paquete en la puerta de entrada”.
Proporcione capacidades de automatización del hogar como “encender la luz del garaje cuando se detecta una persona”.
Integre con asistentes inteligentes como dispositivos Echo para proporcionar anuncios de Alexa cuando se detecta un objeto.
Proporcione capacidades de búsqueda inteligente, como la búsqueda de todos los clips de video donde se detectó un paquete.

P: ¿Cómo funcionan los eventos de streaming de video de Amazon Rekognition?
Puede usar trasmisiones de video de Kinesis nuevas o existentes para comenzar con los eventos de streaming de video de Amazon Rekognition. Al configurar la configuración de su procesador de transmisión para Amazon Rekognition, puede elegir las etiquetas deseadas (persona, mascota o paquete) que desea detectar, la duración del video (hasta 120 segundos por evento de movimiento) que Rekognition debe procesar para cada evento o la región de interés en el marco que desea procesar a través de Rekognition. Las API de eventos de streaming de video de Rekognition procesan el video solo cuando envía una notificación a Rekognition para comenzar a procesar la transmisión de video.

Cuando se detecta movimiento en una cámara conectada, envía una notificación a Rekognition para comenzar a procesar la transmisión de video. Rekognition procesa la trasmisión de vídeo de Kinesis correspondiente, posterior a la detección de movimiento, para buscar los objetos deseados que haya especificado. Tan pronto como se detecte un objeto deseado, Amazon Rekognition le enviará una notificación. Esta notificación incluye el objeto detectado, el cuadro delimitador, la imagen ampliada del objeto y la marca temporal.

P: ¿Con qué etiquetas son compatibles los eventos de streaming de video de Amazon Rekognition?
Los eventos de streaming de video de Amazon Rekognition soportan personas, mascotas y paquetes.

P: ¿Qué mascotas y tipos de paquetes pueden detectar las API de streaming de video de Amazon Rekognition?
Las API de eventos de streaming de video de Amazon Rekognition admiten perros y gatos para la detección de mascotas. La API puede detectar cajas de cartón medianas y grandes con alta precisión. La API también detecta cajas más pequeñas, sobres con burbujas y carpetas, pero puede pasar por alto algunos de estos objetos de vez en cuando.

P: ¿Se me cobrará por separado por cada etiqueta detectada? ¿Puedo elegir por qué etiquetas optar?
No, no se le cobrará por separado cada etiqueta. Se cobrará por la duración del streaming de video que procese Rekognition. Puede optar por etiquetas específicas (mascota, paquete) u optar por las tres etiquetas (personas, mascota, paquete) mientras configura sus ajustes de procesamiento de transmisión.

P: ¿Necesito transmitir videos continuamente a Amazon Rekognition?
No, no necesita transmitir videos continuamente a Amazon Rekognition.

P: ¿Debo crear nuevas trasmisiones de video de Kinesis (KVS) para usar eventos de streaming de video?
Los eventos de streaming de video de Amazon Rekognition funcionan con trasmisiones de video de Kinesis nuevas y existentes. Simplemente integre las transmisiones KVS relevantes con las API de los eventos de streaming de video de Amazon Rekognition para comenzar con el análisis de video en las transmisiones KVS.

P: ¿Cuándo me enviará Amazon Rekognition una notificación?
Amazon Rekognition comienza a procesar la transmisión de video después de la detección de movimiento. Puede configurar la duración del procesamiento de esta transmisión de video (hasta 120 segundos por evento). Tan pronto como Amazon Rekognition detecte el objeto de interés en la transmisión de video, Rekognition le enviará una notificación. Esta notificación incluye el tipo de objeto detectado, el cuadro delimitador, una imagen ampliada del objeto detectado y una marca temporal.

P: ¿Qué resolución y fps admite la detección de etiquetas?
Para mantener bajos los costos y la latencia, los eventos de streaming de video de Amazon Rekognition admiten transmisiones de video de resolución 1080p o inferior. Rekognition procesa la transmisión de video a 5 fps.

P: ¿Qué códecs y formatos de archivo son compatibles con el streaming de video?
Amazon Rekognition Video admite archivos H.264 en formato MPEG-4 (.mp4) o MOV.

P: ¿Cuál es la duración máxima del video procesado por evento?
Puede procesar hasta 120 segundos de video por evento.

P: ¿Puedo elegir un área en particular del cuadro para que se procese para mi transmisión de video?
Sí, como parte de la configuración de su StreamProcessor, puede elegir la región de interés que desea procesar en su marco. Amazon Rekognition solo procesará esa área particular del marco.

P: ¿Cuántas transmisiones de video simultáneas puedo procesar con Amazon Rekognition?
Los eventos de streaming de video de Amazon Rekognition pueden admitir 600 sesiones simultáneas por cliente de AWS. Comuníquese con su administrador de cuenta si necesita aumentar este límite.

Análisis de video almacenado de Amazon Rekognition

P: ¿Qué tipos de entidades puede detectar Amazon Rekognition Video?
Amazon Rekognition Video puede detectar objetos, escenas, lugares emblemáticos, rostros, celebridades, texto y contenido inapropiado en los videos. También puede buscar rostros que aparezcan en un vídeo mediante su propio repositorio o colección de imágenes de rostros.

P: ¿Qué tipos de formatos de archivo y códecs admite Amazon Rekognition Video?
Amazon Rekognition Video admite archivos H.264 en formato MPEG-4 (.mp4) o MOV. Si se utiliza un códec diferente para los archivos de video, con AWS Elemental MediaConvert puede transcodificarlos a H.264.

P: ¿Cómo funcionan las API asíncronas de Amazon Rekognition Video?
Amazon Rekognition Video puede procesar videos almacenados en un bucket de Amazon S3. Puede utilizar un conjunto de operaciones asíncronas: se inicia el análisis de video con una operación de inicio como StartLabelDetection para detectar objetos y escenas. El estado de finalización de la solicitud se publica en un tema de Amazon Simple Notification Service (SNS). Para obtener el estado de finalización del tema de Amazon SNS, puede utilizar una cola de Amazon Simple Queue Service (SQS) o una función de AWS Lambda. Tras obtener el estado de finalización, puede realizar una llamada a una operación Get, como GetLabelDetection, para obtener los resultados de la solicitud. Para obtener una lista de las API de Amazon Rekognition Video disponibles, consulte esta página.

P: ¿Cómo encuentro la línea de tiempo para cada detección en un video?
Amazon Rekognition Video muestra resultados de etiquetas según marcas temporales o segmentos de vídeo. Puede elegir cómo quiere organizar estos resultados usando el parámetro de entrada AggregateBy en la API de GetLabelDetection.

Cuando los resultados de etiquetas se organizan por marcas temporales, cada etiqueta se mostrará todas las veces que Amazon Rekognition Video detecte esa etiqueta en la marca temporal del video. Por ejemplo, si se detecta “perro” a los 2000 ms y 4000 ms, Amazon Rekognition Video mostrará dos entradas de etiquetas para “perro”, una a los 2000 ms y otra a los 4000 ms.
Cuando los resultados de etiquetas están organizados por segmentos de video, Amazon Rekognition Video muestra el segmento de video para cuando se detecta una etiqueta en todos los múltiples fotogramas consecutivos. Un segmento de video se define por el inicio y la finalización de una marca temporal, y la duración. Por ejemplo, si “perro” se detecta en dos fotogramas consecutivos a los 2000 ms y 4000 ms, Amazon Rekognition Video mostrará una etiqueta para “perro” con el inicio de la marca temporal a los 2000 ms, la finalización de la marca temporal a los 4000 ms y una duración de 2000 ms.

Para obtener más información sobre marcas temporales y segmentos, y para ver un ejemplo de respuesta de la API, visite Cómo detectar etiquetas en un video.

P: ¿Cuántos trabajos de análisis de video simultáneos puedo ejecutar con Amazon Rekognition Video?
Con Amazon Rekognition Video, puede procesar hasta 20 trabajos simultáneos. Para obtener más detalles sobre los límites, consulte la página de límites.

P: ¿Qué resolución de video debo utilizar?
Amazon Rekognition Video administra de forma automática una amplia variedad de resoluciones y calidades de video. Para obtener resultados óptimos, recomendamos que se utilice una resolución de 720p (1280×720 píxeles) a 1080p (1920x1080 píxeles) o su equivalente en otras relaciones de aspecto. Una resolución muy baja (como QVGA o 240p) y videos de muy baja calidad pueden afectar de forma negativa la calidad de los resultados.

P: ¿Qué es el recorrido de las personas?
Con Rekognition Video, es posible encontrar el recorrido de cada persona a lo largo de la línea de tiempo del video. Rekognition Video detecta a las personas incluso con la cámara en movimiento y, para cada persona, devuelve un recuadro que rodea su rostro, además de sus atributos y las marcas temporales. En aplicaciones comerciales, esto permite devolver información sobre los clientes de forma anónima, como por ejemplo, cómo se mueven los clientes por los diferentes pasillos de un centro comercial o cuánto tiempo deben esperar para pagar en las colas de caja.

Análisis de contenido multimedia mediante Amazon Rekognition Video

P: ¿Qué tipos de segmentos de análisis de contenido multimedia puede detectar Amazon Rekognition Video?

Amazon Rekognition Video puede detectar los siguientes tipos de segmentos o entidades para el análisis de medios:

Cuadros negros: los videos suelen contener una breve duración de cuadros negros, vacíos y sin audio que se utilizan como indicaciones para insertar anuncios o a fin de delimitar el final de un segmento de programa, como una escena o los créditos de apertura. Con Amazon Rekognition Video, se pueden detectar tales secuencias de cuadros negros para automatizar la inserción de anuncios, empaquetar el contenido para video bajo demanda y delimitar varios segmentos o escenas de programas. Los marcos negros con audio (como los fundidos o las voces en off) se consideran como contenido y no se devuelven.
Créditos: Amazon Rekognition Video lo ayuda a identificar de forma automática los fotogramas exactos en los que comienzan y terminan los títulos iniciales y finales de una película o un programa de televisión. Con esta información, puede generar ‘marcadores de maratón de series’ o preguntas de espectador interactivo tales como ‘Próximo episodio’ u ‘Omitir intro’ en aplicaciones de VOD. Amazon Rekognition Video está entrenado para administrar una amplia variedad de estilos de créditos iniciales y finales, que van desde los simples a los más desafiantes junto con contenido, créditos en escena o créditos estilizados en contenido de animé.
Tomas: una toma es una serie de imágenes consecutivas interrelacionadas que se capturan contiguamente por una sola cámara y que representan una acción continua en el tiempo y el espacio. Con Amazon Rekognition Video, se puede detectar el inicio, el final y la duración de cada toma, así como contabilizar todas las tomas de un contenido. Los metadatos de las tomas pueden utilizarse para aplicaciones como la creación de videos promocionales a partir de tomas seleccionadas, la generación de un conjunto de miniaturas de previsualización que eviten el contenido de transición entre las tomas y la inserción de anuncios en determinadas puntos que no interrumpan la experiencia del espectador, como la mitad de una toma cuando alguien está hablando.
Barras de colores: Amazon Rekognition Video permite detectar secciones de video que muestran barras de color según la SMPTE o EBU, que son un conjunto de colores mostrados en patrones específicos para asegurar que el color está calibrado correctamente en los monitores de transmisión, programas y en las cámaras. Para obtener más información sobre las barras de colores de SMPTE, consulte Barra de color de SMPTE. Estos metadatos sirven para preparar el contenido para las aplicaciones de video bajo demanda mediante la eliminación de segmentos de barras de color del contenido o para detectar problemas como la pérdida de señales de emisión en una grabación, cuando las barras de color se muestran continuamente como una señal predeterminada en lugar de contenido.
Pizarras: las pizarras son secciones, generalmente al principio de un video, que contienen metadatos de texto sobre el episodio, el estudio, el formato de video, los canales de audio y más. Amazon Rekognition puede identificar dichas pizarras de inicio y final, lo que facilita a los operadores el uso de metadatos de texto o la simple eliminación de la pizarra cuando prepara contenido para la visualización final.
Logotipos del estudio: los logotipos del estudio son secuencias que muestran los logotipos o emblemas del estudio de producción que participó en la realización del programa. Amazon Rekognition puede identificar estas secuencias, lo que hace que sea más fácil para los operadores revisarlos para identificar los estudios.
Contenido: el contenido hace referencia a las partes del programa de TV o película que contiene el programa o los elementos relacionados. Fotogramas en negro, créditos, barras de colores, pizarras y logotipos de estudios no se consideran contenido. Amazon Rekognition Video le permite detectar el inicio y el final de cada segmento de contenido en el video, lo que permite múltiples usos, tales como encontrar el tiempo de ejecución del programa o encontrar ciertos segmentos que brindan propósitos específicos. Por ejemplo, un resumen rápido del episodio anterior al comienzo del video es un tipo de contenido. De modo similar, puede aparecer un contenido adicional luego de los créditos. Y, algunos videos pueden tener contenido “sin texto” al final del video, que es un conjunto de todo el contenido del programa que contiene texto superpuesto, pero donde se eliminó ese texto para permitir la internacionalización en otro idioma. Una vez que se detectaron todos los segmentos con Amazon Rekognition Video, puede aplicar conocimiento de dominio específico como “mi video siempre comienza con un resumen” para categorizar aun más cada segmento o para enviarlos para revisión humana.

Amazon Rekognition Video proporciona el inicio, el final, la duración y los códigos de tiempo de cada entidad detectada, y proporciona marcas temporales (milisegundos), código de formato SMPTE y opciones de cantidad de marco para cada uno.

P: ¿Cómo empiezo a analizar contenido multimedia con Amazon Rekognition Video?

Las características del análisis de contenido multimedia están disponibles a través de la API de detección de segmentos de Amazon Rekognition Video. Esta es una API asíncrona que se compone de dos operaciones: StartSegmentDetection para iniciar el análisis y GetSegmentDetection para obtener los resultados de dicho análisis. Para comenzar, consulte la documentación.

Si desea visualizar los resultados de los análisis de contenido multimedia o incluso probar otros servicios de IA de Amazon, como Amazon Transcribe, con sus propios videos, utilice la aplicación Media Insights, un marco sin servidores y aplicación de demostración con el fin generar información y desarrollar aplicaciones con facilidad para sus recursos de video, audio, texto e imágenes, mediante los servicios de contenido multimedia y AWS Machine Learning. Puede fácilmente poner en marcha su propia aplicación de demostración utilizando la plantilla de AWS CloudFormation proporcionada, para probar sus propios videos y visualizar los resultados de análisis.

P: ¿Qué es un código de tiempo preciso de un cuadro?

Los códigos de tiempo precisos de los cuadros proporcionan el número de cuadro exacto para el segmento de video o entidad correspondiente. Las empresas de contenido multimedia comúnmente procesan los códigos de tiempo en el formato de la SMPTE (Sociedad de ingenieros de cine y televisión), horas:minutos:segundos:número de cuadro, por ejemplo, 00:24:53:22.

P: ¿La detección de segmentos de cuadros de Amazon Rekognition Video es precisa?

Sí, la API de detección de segmentos de Amazon Rekognition Video proporciona códigos de tiempo según la SMPTE con precisión de cuadros, así como marcas temporales en milisegundos del inicio y el final de cada detección.

P: ¿Qué tipos de formatos de velocidad de cuadro puede gestionar la detección de segmentos de Amazon Rekognition Video?

La detección de segmentos de Amazon Rekognition Video gestiona de forma automática los estándares de cuadros completos, fraccionarios y discontinuos para velocidades de cuadro de entre 15 y 60 fps. Por ejemplo, las velocidades de cuadro comunes como 23,976 fps, 25 fps, 29,97 fps y 30 fps son compatibles con la detección de segmentos. La información de la velocidad de cuadro se utiliza para proporcionar códigos de tiempo de cuadros precisos en cada caso.

P: ¿Qué opciones de filtrado puedo aplicar?

Puede especificar la confianza mínima de cada tipo de segmento a la vez que realiza una solicitud de API. Por ejemplo, puede filtrar cualquier segmento con una puntuación de confianza por debajo del 70 %. Para la detección de fotogramas negros, también puede controlar la luminancia máxima de los píxeles, por ejemplo, un valor de 40 para un rango de color de 0 a 255. Además, puede controlar qué porcentaje de píxeles de un cuadro debe cumplir con este priterio de luminancia de píxeles negros para que se clasifique como fotograma negro, por ejemplo, un 99 %. Estos filtros le permiten justificar la diversa calidad y formatos del video en el momento de detectar fotogramas negros. Por ejemplo, los videos sustraídos de archivos de cinta pueden ser ruidosos y tener un nivel de negro diferente en comparación con un video digital moderno. Para obtener más detalles, consulte esta página.

Facturación

P: ¿Cómo cuenta Amazon Rekognition la cantidad de imágenes procesadas?

Para las API que aceptan imágenes como entrada, Amazon Rekognition cuenta la cantidad real de imágenes analizadas como la cantidad de imágenes procesadas. DetectLabels, DetectModerationLabels, DetectFaces, IndexFaces, RecognizeCelebrities, SearchFaceByImage y Propiedades de imagen pertenecen a esta categoría. En el caso de la API de CompareFaces, si se utilizan dos imágenes como entrada, solo la imagen de origen se cuenta como una unidad de imágenes procesada.

En el caso de las llamadas a la API que no requieren una imagen como parámetro de entrada, Amazon Rekognition cuenta cada llamada a una API como una imagen procesada. SearchFaces pertenece a esta categoría.

Las demás API de Amazon Rekognition (ListFaces, DeleteFaces, CreateCollection, DeleteCollection y ListCollections) no se suman a la cantidad de imágenes procesadas.

P: ¿Cómo cuenta Amazon Rekognition el número de minutos de vídeos procesados?

En el caso de los vídeos archivados, Amazon Rekognition cuenta los minutos de vídeo que ha podido procesar correctamente a través de la API y realiza los cálculos para la facturación. En el caso de los vídeos transmitidos en directo, se le cobrará por bloques de cinco segundos de vídeo procesados correctamente.

P: ¿Cuáles son las API pagas de Amazon Rekognition?

Amazon Rekognition Image cobra las siguientes API: DetectLabels, DetectModerationLabels, DetectText, DetectFaces, IndexFaces, RecognizeCelebrities, SearchFaceByImage, CompareFaces, SearchFaces y Propiedades de imagen. Amazon Rekognition Video cobra en función de la duración de los videos en minutos, procesados correctamente por las API de StartLabelDetection, StartFaceDetection, StartFaceDetection, StartTextDetection, StartContentModeration, StartPersonTracking, StartCelebrityRecognition, StartFaceSearch y StartStreamProcessor.

P: ¿Cuánto cuesta Amazon Rekognition?

Para obtener información actualizada sobre los precios, consulte la página de precios de Amazon Rekognition.

P: ¿Se me cobrará por los vectores de características que almaceno en mi colección de rostros?

Sí. Amazon Rekognition cobra 0,01 USD por 1 000 vectores faciales al mes. Para obtener más información, consulte la página de precios.

P: ¿Amazon Rekognition participa en la capa gratuita de AWS?

Sí. Como parte de la capa de uso gratuita de AWS, puede comenzar a utilizar Amazon Rekognition de manera gratuita. Una vez inscritos, los nuevos clientes de Amazon Rekognition pueden analizar hasta 5000 imágenes al mes de manera gratuita durante los primeros 12 meses. Con el nivel gratuito, puede utilizar todas las API de Amazon Rekognition, excepto la de Propiedades de imagen, y almacenar hasta 1000 rostros sin cargo. Además, los clientes de Amazon Rekognition Video pueden analizar 1000 minutos de video de forma gratuita al mes durante el primer año.

P: ¿Los precios incluyen impuestos?

Para obtener más información sobre impuestos, consulte la ayuda sobre impuestos de Amazon Web Services.

Integración con AWS

P: ¿Funciona Amazon Rekognition Video con imágenes almacenadas en Amazon S3?

Sí. Puede comenzar a analizar imágenes almacenadas en Amazon S3 simplemente apuntando la API de Amazon Rekognition API a su bucket de S3. No es necesario que transfiera sus datos. Para obtener más información sobre cómo utilizar los objetos de S3 con llamadas a las API de Amazon Rekognition, consulte nuestro ejercicio sobre detección de etiquetas.

P: ¿Puedo utilizar Amazon Rekognition con imágenes guardadas en un bucket de Amazon S3 en otra región?

No. Asegúrese de que el bucket de Amazon S3 que quiere utilizar esté en la misma región que el punto de enlace de la API de Amazon Rekognition.

P: ¿Cómo puedo procesar varios archivos de imágenes en un lote con Amazon Rekognition?

Puede procesar sus imágenes de Amazon S3 por lotes siguiendo los pasos indicados en nuestro ejemplo de procesamiento por lotes de Amazon Rekognition en GitHub.

P: ¿Cómo puedo utilizar AWS Lambda con Amazon Rekognition?

Amazon Rekognition proporciona acceso sencillo a AWS Lambda y le permite añadir el análisis de imágenes basado en activadores a sus almacenes de datos de AWS, como Amazon S3 y Amazon DynamoDB. Para utilizar Amazon Rekognition con AWS Lambda, siga los pasos descritos aquí y seleccione uno de los planos de Amazon Rekognition disponibles.

P: ¿Amazon Rekognition es compatible con AWS CloudTrail?

Sí. Amazon Rekognition admite el registro de las siguientes acciones como eventos en archivos de log de CloudTrail: CreateCollection, DeleteCollection, CreateStreamProcessor, DeleteStreamProcessor, DescribeStreamProcessor, ListStreamProcessors y ListCollections. Si desea obtener más detalles sobre las llamadas a la API en Amazon Rekognition que están integradas con AWS CloudTrail, consulte Registro de llamadas a la API en Amazon Rekognition con AWS CloudTrail.

Privacidad de datos

P: ¿Se almacenan las entradas de imagen y video procesadas por Amazon Rekognition?, ¿cómo las utiliza AWS?

Amazon Rekognition puede almacenar y utilizar las entradas de imagen y video procesadas por el servicio únicamente para proporcionar y mantener el servicio y, a menos que elija no participar en él, para mejorar y desarrollar la calidad de Amazon Rekognition y otras tecnologías de aprendizaje automático e inteligencia artificial de Amazon. El uso de su contenido es importante para la mejora continua de su experiencia como cliente de Amazon Rekognition, incluyendo la formación y el desarrollo relacionados con estas tecnologías. No utilizamos información de identificación personal que pudiera estar incluida en el contenido para venderle a usted o a sus usuarios finales productos o servicios, ni para campañas de marketing. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obtener más información. Puede desactivar el uso de sus entradas de imagen y video para mejorar y desarrollar el nivel de calidad de Amazon Rekognition y de otras tecnologías de aprendizaje automático e inteligencia artificial de Amazon. Para ello, utilice una política de no participación de AWS Organizations. Para obtener más información acerca de cómo optar por la exclusión, consulte Administración de la política para no participar en los servicios de IA.

P: ¿Se pueden eliminar entradas de imagen y video almacenadas por Amazon Rekognition?

Sí. Puede solicitar la eliminación de información de imagen y video asociada a su cuenta contactando con AWS Support. La eliminación de información de imagen y video puede reducir la calidad de su experiencia con Amazon Rekognition.

P: ¿Quién tiene acceso a mi contenido procesado y almacenado por Amazon Rekognition?

Solo los empleados autorizados tendrán acceso a su contenido procesado por Amazon Rekognition. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obtener más información.

P: ¿Sigo siendo el propietario de mi contenido procesado y almacenado por Amazon Rekognition?

Siempre conservará la titularidad del contenido, que se utilizará únicamente con su consentimiento.

P: ¿El contenido procesado por Amazon Rekognition se transmitirá fuera de la región de AWS en la que estoy utilizando Amazon Rekognition?

Todo el contenido procesado por Amazon Rekognition se cifra y almacena en la región de AWS en la que está utilizando Amazon Rekognition. A menos que decida lo contrario, es posible que una parte del contenido procesado por Amazon Rekognition se almacene en otra región de AWS únicamente en relación con la mejora y desarrollo continuos de su experiencia como cliente de Amazon Rekognition y otras tecnologías de aprendizaje automático e inteligencia artificial de Amazon. Puede solicitar la eliminación de información de imagen y video asociada a su cuenta contactando con AWS Support. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obtener más información. Su contenido no se almacenará en otra región de AWS si desactiva el uso de su contenido para mejorar y desarrollar el nivel de calidad de Amazon Rekognition y de otras tecnologías de aprendizaje automático e inteligencia artificial de Amazon. Para obtener más información acerca de cómo optar por la exclusión, consulte Administración de la política para no participar en los servicios de IA.

P: ¿Puedo utilizar Amazon Rekognition en conexión con sitios web, programas u otras aplicaciones dirigidos o concebidos para niños menores de 13 años y sujetos a la Ley de protección de la privacidad de los niños en línea (COPPA, por sus siglas en inglés)?

Sí, sujeto al cumplimiento de los Términos de Servicio de Amazon Rekognition, incluyendo su obligación de proporcionar cualquier aviso requerido y obtener cualquier consentimiento verificable de los padres según COPPA, puede usar Amazon Rekognition en relación con sitios web, programas u otras aplicaciones dirigidos o concebidos, en todo o en parte, para niños menores de 13 años.

P. ¿Cómo puedo determinar si mi sitio web, programa o aplicación está sujeto a la ley COPPA?

Para obtener información sobre los requisitos de la ley COPPA y sus directrices para determinar si su sitio web, programa u otra aplicación está sujeto a la ley COPPA, consulte directamente los recursos proporcionados y mantenidos por la Comisión Federal de Comercio de Estados Unidos. Este sitio también contiene información sobre cómo determinar si un servicio está dirigido o concebido, en todo o en parte, para niños menores de 13 años.

P: ¿Amazon Rekognition cumple los requisitos de HIPAA?

Amazon Rekognition es un servicio que cumple los requisitos de HIPAA y que está cubierto bajo el anexo para socios empresariales de AWS (AWS BAA). Si cuenta con un AWS BAA vigente, Amazon Rekognition usará, divulgará y conservará su información sanitaria protegida (PHI) únicamente en la medida que lo permitan los términos de su AWS BAA.

Control de acceso

P: ¿Cómo puedo controlar el acceso de los usuarios a Amazon Rekognition?

Amazon Rekognition se integra con AWS Identity and Access Management (IAM). Se pueden utilizar políticas de AWS IAM para garantizar que solo los usuarios autorizados dispongan de acceso a las API de Amazon Rekognition. Para obtener más información, consulte la página de control del acceso y la autenticación de Amazon Rekognition.

Informar abuso

P: ¿Cómo puedo informar sobre un posible abuso de Amazon Rekognition?

Si sospecha que se están utilizando Amazon Rekognition de una manera abusiva o ilegal, o que viola sus derechos o los derechos de otros, denuncie este uso y AWS investigará el caso.

Más información sobre los precios de Amazon Rekognition

Visite la página de precios

¿Listo para crear?

Introducción a AWS Rekognition

¿Tiene más preguntas?

Contáctenos

Preguntas frecuentes sobre Amazon Rekognition