Una tarjeta de servicio de IA de AWS explica los casos de uso para los que está destinado el servicio, cómo utiliza machine learning (ML) y las consideraciones clave para el diseño y el uso responsables del servicio. La tarjeta de servicio evolucionará a medida que AWS reciba los comentarios de los clientes y el servicio itere a través del proceso de desarrollo. AWS recomienda que los clientes evalúen el rendimiento de cualquier servicio de IA en su propio contenido para cada caso de uso que necesiten resolver. Para obtener más información, consulte la guía de uso responsable de machine Learning de AWS y las referencias que figuran al final. Asegúrese también de revisar las políticas de uso responsable de IA de AWS y las condiciones de uso de los servicios de AWS para los servicios que planea utilizar.
Esta tarjeta de servicio se aplica a la versión del reconocimiento facial de Rekognition, vigente desde el 11 de julio de 2022.
Información general
El reconocimiento facial de Amazon Rekognition permite a los creadores de aplicaciones comparar la imagen de un rostro con la imagen de un segundo rostro. Esta tarjeta de servicio de IA describe especificaciones para reconocer de manera responsable los rostros en las fotos típicas de estilo de identificación y en el contenido multimedia (por ejemplo, películas, álbumes de fotos e imágenes “salvajes” capturadas en entornos naturales o no controlados) mediante nuestras API CompareFaces y SearchFaces. Por lo general, los clientes utilizan CompareFaces para comparar un rostro de origen con un rostro de destino (coincidencia 1:1) y SearchFaces para comparar un rostro de origen con una colección de rostros de destino (coincidencia 1:N). Rekognition no proporciona a los clientes colecciones de rostros prediseñadas; los clientes deben crear y completar sus propias colecciones de rostros. En toda esta tarjeta, utilizaremos la expresión “reconocimiento facial” para referirnos a las API CompareFaces y SearchFaces de Rekognition.
Cuando un par imágenes de rostros contienen el rostro de la misma persona, se dice que es una “coincidencia verdadera”. En caso contrario, se considera una “no coincidencia verdadera”. Partiendo de un par de imágenes de entrada de “origen” y “destino”, Rekognition devuelve una puntuación según la similitud del rostro de origen en la imagen de origen con el rostro de destino en la imagen de destino. La puntuación mínima de similitud es 0, lo que implica muy poca similitud, y la máxima es 100, lo que implica una similitud muy alta. Por sí solo, Rekognition no decide de forma independiente si los dos rostros de las imágenes coinciden o no coinciden realmente; el flujo de trabajo del cliente que llama a CompareFaces o SearchFaces decide mediante una lógica automatizada (establece un límite de similitud entre 0 y 100 y predice una coincidencia verdadera si la puntuación de similitud supera el límite), el juicio humano o una combinación de ambos.
Los rostros humanos difieren físicamente, por ejemplo, por el tono de la piel y la geometría. Sin embargo, se puede representar a cualquier individuo mediante imágenes diferentes y, a la inversa, se pueden representar a diferentes individuos mediante imágenes muy similares. Por ejemplo, dos personas cuya única diferencia es la forma de sus ojos pueden tener el mismo aspecto si usan el mismo par de gafas de sol. Esto se debe a que hay muchos factores posibles (denominados “variaciones de confusión”) que se combinan para cambiar la ubicación y el color de los píxeles de la imagen que representan un rostro. Estos factores de confusión incluyen (1) la distribución de la dirección, la intensidad y la longitud de onda de la iluminación; (2) la postura de la cabeza; (3) los defectos de enfoque y de imagen de la cámara; (4) la resolución de los píxeles; (5) las oclusiones de las manos, el vello facial, la cabellera, los teléfonos móviles, las lenguas que sobresalen, los pañuelos, los anteojos, los sombreros, las joyas u otros objetos; (6) la expresión facial (por ejemplo, neutra o con los ojos abiertos); y (7) las alteraciones en el tono de la piel (por ejemplo, por maquillaje, pintura facial, quemaduras solares o acné). La puntuación de similitud de Rekognition está diseñada para ser baja para las imágenes de rostros de diferentes personas y alta para las imágenes del mismo rostro e ignora las variaciones de confusión. Rekognition solo usa la información disponible en las imágenes de origen y destino para evaluar la similitud de las imágenes de rostros humanos.
Casos de uso previstos y limitaciones
El reconocimiento facial de Rekognition solo tiene como objetivo comparar rostros humanos. No admite el reconocimiento de rostros de dibujos animados, personajes animados o entidades no humanas. Tampoco admite el uso de imágenes faciales que sean demasiado borrosas y granulosas como para que un humano las reconozca, o cuando el cabello, las manos u otros objetos ocluyan gran parte del rostro. Además, AWS implementó una moratoria sobre el uso policial de las API Rekognition CompareFaces y Rekognition SearchFaces como parte de las investigaciones penales (consulte la sección 50.9 de las Condiciones de uso del servicio de AWS para obtener más información).
El reconocimiento facial de Rekognition da lugar a muchas aplicaciones, como identificar a niños desaparecidos, permitir el acceso a edificios o programas de hospitalidad para conferencias, verificar la identidad en línea y organizar bibliotecas de fotos personales. Estas aplicaciones varían según la cantidad de personas involucradas, la cantidad de imágenes diferentes disponibles para cada individuo, la cantidad de variaciones de confusión previstas, los costos relativos de las coincidencias falsas, las no coincidencias falsas y otros factores. Organizamos estas aplicaciones en dos casos de uso amplios.
Caso práctico de verificación de identidad: las aplicaciones de verificación de identidad utilizan el reconocimiento facial para incorporar nuevos usuarios y conceder a los usuarios existentes acceso a los recursos. En este caso práctico, las variaciones de confusión suelen minimizarse mediante el uso de fotos de documentos de identidad emitidos por el gobierno (como pasaportes y carnés de conducir) y selfis en tiempo real que fomenten las poses frontales con rostros bien iluminados y despejados. Esto permite que cada persona de la colección de destino esté representada por una pequeña cantidad de imágenes faciales y que haya una gran cantidad de personas diferentes en la colección (por ejemplo, millones). En este caso de uso, algunos usuarios finales podrían intentar engañar al sistema para obtener acceso, por lo que los clientes podrían mitigar este riesgo, por ejemplo, comprobar manualmente que las imágenes de origen y destino enviadas a Rekognition cumplen las expectativas del cliente o exigir que las coincidencias tengan puntuaciones de similitud altas (por ejemplo, 95).
Caso de uso multimedia: las aplicaciones multimedia utilizan el reconocimiento facial para identificar a las personas que aparecen en las fotos y los videos de un conjunto de personas conocidas (por ejemplo, encontrar a miembros de la familia en los videos de las vacaciones). En este caso de uso, existe una gran variación de confusión entre las imágenes de origen y de destino de la misma persona, por lo que las colecciones de destino pueden contener menos personas con más imágenes por usuario (tal vez abarquen varios años de la vida de la persona). Hay menos incentivos para que los usuarios finales traten de engañar al sistema en este caso de uso, por lo que los clientes pueden optar por tener flujos de trabajo altamente automatizados y, dadas las muchas variaciones de confusión, pueden permitir que las coincidencias tengan puntuaciones de similitud más bajas (por ejemplo, 80).
Diseño del reconocimiento facial de Rekognition
Machine learning: el reconocimiento facial de Rekognition se crea mediante tecnologías de visión artificial y ML. Funciona de la siguiente manera: (1) ubica la parte de una imagen de entrada que contiene el rostro. (2) Extrae la región de la imagen que contiene la cabeza y alinea la región para que la cara esté en una posición vertical “normal”, de manera que genere imágenes faciales recortadas. (3) Convierte cada imagen facial recortada en un “vector facial” (técnicamente, una representación matemática de la imagen de un rostro). Tenga en cuenta que las colecciones que busca SearchFaces son conjuntos de vectores de rostros, no conjuntos de imágenes de rostros. (4) Compara los vectores faciales de origen y destino y devuelve la puntuación de similitud del sistema para los vectores faciales. Consulte la documentación para desarrolladores para obtener más información sobre las llamadas a la API.
Expectativas de rendimiento: las variaciones individuales y de confusión diferirán entre las aplicaciones del cliente. Esto significa que el rendimiento también diferirá entre las aplicaciones, incluso si admiten el mismo caso de uso. Considere dos aplicaciones de verificación de identidad A y B. Con cada una, un usuario registra primero su identidad con una imagen similar a la de un pasaporte y, luego, verifica su identidad mediante selfis en tiempo real. La aplicación A permite el acceso al teléfono inteligente mediante el uso de su cámara para capturar selfis frontales bien iluminadas, bien enfocadas, de alta resolución y sin oclusiones. La aplicación B permite el acceso a edificios mediante el uso de una cámara de entrada para capturar selfis con menos iluminación, más borrosas y con una resolución más baja. Dado que A y B tienen diferentes tipos de entradas, es probable que tengan tasas de error de reconocimiento facial diferentes, incluso suponiendo que cada aplicación se implemente perfectamente con Rekognition.
Metodología basada en pruebas: utilizamos varios conjuntos de datos para evaluar el rendimiento. Ningún conjunto de datos de evaluación proporciona una imagen absoluta del rendimiento. Esto se debe a que los conjuntos de datos de evaluación varían según su composición demográfica (la cantidad y el tipo de grupos definidos), la cantidad de variaciones de confusión (calidad del contenido, adecuación para el propósito), los tipos y la calidad de las etiquetas disponibles y otros factores. Medimos el rendimiento de Rekognition mediante la prueba en conjuntos de datos de evaluación que contienen pares de imágenes de la misma persona (pares coincidentes) y pares de imágenes de diferentes personas (pares no coincidentes). Elegimos un límite de similitud, utilizamos Rekognition para calcular la puntuación de similitud de cada par y, en función del límite, determinamos si el par coincide o no. El rendimiento general de un conjunto de datos se representa mediante dos números: la tasa de coincidencia verdadera (el porcentaje de pares coincidentes con una similitud por encima del límite) y la tasa de no coincidencia verdadera (el porcentaje de pares no coincidentes con una puntuación de similitud por debajo del límite). Si se cambia el límite de similitud, se modifican las tasas de coincidencia y de no coincidencia verdaderas. Los grupos de un conjunto de datos se pueden definir mediante atributos demográficos (por ejemplo, género), variables de confusión (por ejemplo, la presencia o ausencia de vello facial) o una combinación de ambos. Los diferentes conjuntos de datos de evaluación varían según estos y otros factores. Debido a ello, las tasas reales de coincidencia y no coincidencia, tanto en general como para los grupos, varían de un conjunto de datos a otro. Teniendo en cuenta esta variación, nuestro proceso de desarrollo examina el rendimiento de Rekognition mediante varios conjuntos de datos de evaluación, toma medidas para aumentar las tasas de coincidencias verdaderas o las no coincidencias verdaderas en los grupos en los que Rekognition tuvo un rendimiento no tan bueno, trabaja para mejorar el paquete de conjuntos de datos de evaluación y, a continuación, itera.
Equidad y sesgo: nuestro objetivo es que el reconocimiento facial de Rekognition funcione bien para todos los rostros humanos. Para lograrlo, utilizamos el proceso de desarrollo iterativo descrito anteriormente. Como parte del proceso, creamos conjuntos de datos que capturan una amplia gama de rasgos faciales y tonos de piel humanos dentro de una amplia gama de variaciones de confusión. Realizamos pruebas rutinarias en todos los casos de uso con conjuntos de datos de imágenes faciales para las que tenemos etiquetas demográficas confiables, como el género, la edad y el tono de la piel. Descubrimos que Rekognition funciona bien para todos los atributos demográficos. Por ejemplo, Credo AI, una empresa especializada en IA responsable, llevó a cabo una evaluación externa de Rekognition mediante un conjunto de datos de verificación de identidad que contenía imágenes de alta calidad de sujetos con buena iluminación, sin borrosidad ni oclusión. Credo AI observó que la tasa de compatibilidad real más baja fue del 99,94816 % en seis grupos demográficos que se definieron por tono de piel y género, y que la tasa más baja de no coincidencia verdadera en los seis grupos fue del 99,99995 %, con un límite de similitud de 95. Dado que los resultados de rendimiento dependen de diversos factores, como Rekognition, el flujo de trabajo del cliente y el conjunto de datos de evaluación, recomendamos que los clientes hagan pruebas adicionales de Rekognition con su propio contenido.
Explicabilidad: si el cliente tiene dudas sobre la puntuación de similitud que Rekognition devolvió para un par determinado de imágenes de origen y de destino, recomendamos que utilice el cuadro delimitador y la información sobre los puntos de referencia faciales que devuelve Rekognition para inspeccionar las imágenes de los rostros directamente.
Robustez: maximizamos la robustez con una serie de técnicas, lo que incluye el uso de grandes conjuntos de datos de entrenamiento que capturan diversos tipos de variaciones entre muchas personas. Dado que Rekognition no puede tener una sensibilidad muy alta a las pequeñas diferencias entre diferentes personas (como los gemelos idénticos) y una sensibilidad muy baja a los cambios de confusión (como la aplicación de maquillaje para realzar los pómulos) de forma simultánea, los clientes deben establecer expectativas de tasas de coincidencia y no coincidencia verdaderas que sean adecuadas para el caso de uso, y probar el rendimiento del flujo de trabajo, incluido el límite de similitud elegido, en su contenido.
Privacidad y seguridad: el reconocimiento facial de Rekognition procesa tres tipos de datos: las imágenes que introduce el cliente, los vectores faciales de imágenes de entrada y las puntuaciones de similitud y los metadatos de salida. Los vectores de rostros nunca se incluyen en los resultados devueltos por el servicio. Las entradas y los resultados nunca se comparten entre los clientes. Los clientes pueden optar por no recibir formación sobre el contenido de los clientes a través de AWS Organizations u otros mecanismos de exclusión que proporcionemos. Consulte la sección 50.3 de las condiciones de servicio de AWS y las preguntas frecuentes sobre privacidad de datos de AWS para obtener más información. Para obtener información sobre privacidad y seguridad específica del servicio, consulte la sección Privacidad de datos de las preguntas frecuentes de Rekognition y la documentación de seguridad de Amazon Rekognition.
Transparencia: cuando sea apropiado para su caso de uso, los clientes que incorporen las API de reconocimiento facial de Amazon Rekognition en sus flujos de trabajo deberían considerar la posibilidad de divulgar su uso de la tecnología de ML y reconocimiento facial a los usuarios finales y a otras personas a las que afecta la aplicación, y ofrecer a sus usuarios finales la posibilidad de proporcionar comentarios para mejorar los flujos de trabajo. En su documentación, los clientes también pueden hacer referencia a esta tarjeta de servicio de IA.
Gobernanza: contamos con metodologías rigurosas para desarrollar nuestros servicios de IA de AWS de manera responsable, lo que incluye un proceso de desarrollo de productos retroactivo que incorpora la IA responsable en la fase de diseño, consultas de diseño y evaluaciones de implementación a cargo de expertos en datos y ciencia de IA responsables y dedicados, pruebas de rutina, revisiones con los clientes y desarrollo, difusión y entrenamiento de las prácticas recomendadas.
Prácticas recomendadas de despliegue y optimización del rendimiento
- Variación individual: cuando se busca una cara de origen en una colección de caras de destino, el éxito aumenta con el grado de diferencia física entre las diferentes personas del conjunto objetivo. Por ejemplo, la coincidencia entre gemelos idénticos es sustancialmente más difícil que la coincidencia entre gemelos fraternos o personas no emparentadas. En general, las colecciones de destino con un mayor número de personas únicas representan un mayor riesgo de tener dos personas únicas que parezcan similares y para las que se debe tener más cuidado al momento de tomar una decisión final sobre una coincidencia. Los flujos de trabajo deben tener en cuenta la posible similitud entre las personas de la colección de destino cuando se interpretan las puntuaciones de similitud devueltas para las imágenes de origen.
- Variaciones de confusión: cuando se seleccionan pares de imágenes de origen y de destino, los flujos de trabajo deben incluir pasos para minimizar las variaciones entre las imágenes de origen y de destino (como las diferencias en las condiciones de iluminación). Si la variación es alta, considere agregar varias imágenes faciales (“opciones”) para cada persona de destino que cubran las variaciones esperadas (como posturas, iluminación y edades) y comparar la imagen facial de origen con cada opción de destino. Si solo es práctico tener una sola opción, considere usar una foto carnet estilo pasaporte, frontal y sin oclusiones. Los flujos de trabajo deben establecer políticas para las imágenes de entrada permitidas y supervisar el cumplimiento mediante un muestreo periódico y aleatorio de las entradas.
- Límite de similitud: es importante establecer un límite de similitud apropiado para la aplicación. De lo contrario, el flujo de trabajo podría concluir que hay una coincidencia donde no la hay (una coincidencia falsa) o viceversa (una falsa no coincidencia). El costo de una coincidencia falsa puede no ser el mismo que el costo de una falsa no coincidencia. Por ejemplo, un límite de similitud apropiado para la autenticación podría ser mucho más alto que el del contenido multimedia. Para establecer un límite de similitud adecuado, el cliente debe recopilar un conjunto representativo de pares de entradas, etiquetar cada uno como coincidente o no coincidente y probar con límites de similitud más altos o más bajos hasta que se cumplan.
- Supervisión humana: si el flujo de trabajo de la aplicación de un cliente implica un caso de uso delicado o de alto riesgo, como una decisión que afecta los derechos de una persona o su acceso a los servicios esenciales, recomendamos incorporar la revisión humana en el flujo de trabajo de la aplicación cuando corresponda. Los sistemas de reconocimiento facial pueden servir como herramientas para reducir el esfuerzo que implican las soluciones completamente manuales y para permitir a los humanos revisar y evaluar rápidamente las posibles coincidencias y no coincidencias.
- Consistencia: los clientes deben establecer y aplicar políticas sobre los tipos de imágenes de origen y destino permitidos, y sobre la forma en que los humanos combinan el uso del límite de similitud y su propio juicio para determinar las coincidencias. Estas políticas deben ser consistentes en todos los grupos demográficos. La modificación inconsistente de las imágenes de origen y destino o los límites de similitud podría generar resultados injustos para diferentes grupos demográficos.
- Desviación del rendimiento: un cambio en los tipos de imágenes que un cliente envía a Rekognition, o un cambio en el servicio, pueden generar resultados diferentes. Para abordar estos cambios, los clientes deberían plantearse volver a probar periódicamente el rendimiento de Rekognition y ajustar su flujo de trabajo si fuera necesario.
Más información
- Para obtener la documentación del servicio, consulte las secciones Rekognition, CompareFaces y SearchFaces.
- Para ver un ejemplo de un diseño de flujo de trabajo de autenticación, consulte el blog Verificación de identidad mediante Amazon Rekognition.
- Para obtener más información sobre la privacidad y otras consideraciones legales, consulte las secciones Legal, Cumplimiento y Privacidad.
- Si necesita ayuda para optimizar un flujo de trabajo, consulte Soporte para clientes de AWS, AWS Professional Services, Amazon SageMaker Ground Truth Plus o Amazon Augmented AI.
- Si tiene alguna pregunta o comentario sobre las tarjetas de servicio de IA de AWS, complete este formulario.
Glosario
La equidad y el sesgo se refieren a la forma en la que un sistema de IA afecta a las diferentes subpoblaciones de usuarios (por ejemplo, por género o etnia).
La explicabilidad se refiere a disponer de mecanismos para comprender y evaluar los resultados de un sistema de IA.
La robustez se refiere a disponer de mecanismos para garantizar que un sistema de IA funcione de manera confiable.
La privacidad y la seguridad se refieren a la protección de los datos contra el robo y su exposición.
La gobernanza se refiere a disponer de procesos para definir, implementar y hacer cumplir prácticas responsables de IA dentro de una organización.
La transparencia se refiere a la comunicación de la información sobre un sistema de IA para que las partes interesadas puedan tomar decisiones informadas sobre el uso que hacen del sistema.