Visão geral

A correspondência facial do Amazon Rekognition permite que os criadores de aplicações meçam a semelhança entre as imagens de duas faces. Este cartão de serviço de IA traz considerações sobre o uso responsável de correspondência facial em fotos típicas de documentos de identificação e em meios diversos (como filmes, álbuns de fotos e imagens feitas em ambientes naturais ou não controlados) usando as APIs CompareFaces e SearchFaces. Normalmente, os clientes usam CompareFaces para comparar uma face de origem com uma face de destino (correspondência 1:1) e SearchFaces para comparar uma face de origem com uma coleção de faces de destino (correspondência 1:N). O Rekognition não fornece coleções pré-construídas de rostos. O cliente precisará criar e preencher a própria coleção de rostos. Neste cartão, usaremos o termo “correspondência facial” para nos referir à API CompareFaces e à API SearchFaces do Rekognition.

Um par de imagens faciais é considerado uma “correspondência correta” quando ambas as imagens têm o rosto da mesma pessoa. Quando isso não acontece, o resultado é uma “não correspondência correta”. Após receber um par de imagens de entrada, classificadas como “origem” e “alvo”, o Rekognition retorna uma pontuação para indicar a semelhança entre a face na imagem de origem e a face na imagem-alvo. A pontuação mínima de similaridade é 0, sugerindo semelhança muito baixa, e a máxima é 100, sugerindo semelhança muito alta. O Rekognition não decide de forma independente se as faces nas imagens são uma correspondência correta ou uma não correspondência correta. O fluxo de trabalho do cliente chama CompareFaces e/ou SearchFaces e toma uma decisão usando lógica automatizada (definindo um limite de similaridade entre 0 e 100 e prevendo uma correspondência correta se a pontuação ultrapassar esse limite), julgamento humano ou uma combinação de ambos.

Os rostos humanos têm diferenças físicas, como tom de pele e geometria. No entanto, qualquer pessoa pode ser representada por imagens diferentes e, vice-versa, pessoas diferentes podem ser representadas por imagens bastante semelhantes. Por exemplo, duas pessoas que diferem apenas no formato dos olhos poderão parecer semelhantes se usarem o mesmo par de óculos de sol. Isso ocorre porque há vários fatores possíveis (chamados de “variáveis de confundimento”) que se combinam para alterar a localização e a cor dos pixels da imagem que representam uma face. Esses fatores de confundimento incluem (1) distribuições da direção, intensidade e comprimento de onda da iluminação; (2) posição da cabeça; (3) foco da câmera e defeitos de imagem; (4) resolução de pixels; (5) obstrução por mãos, pelos faciais, cabelos, telefone celular, língua saliente, cachecóis, óculos, chapéus, joias ou outros objetos; (6) expressão facial (como olhos neutros ou bem abertos); e (7) alterações no tom da pele (por exemplo, por maquiagem, pintura facial, queimaduras solares ou acne). O Rekognition foi projetado para atribuir uma pontuação de similaridade baixa a imagens de rostos de pessoas diferentes e alta a imagens da mesma face, ignorando as variáveis de confundimento. O Rekognition usa apenas as informações disponíveis nas imagens de origem e alvo para avaliar a semelhança de imagens de rostos humanos.

Casos de uso pretendidos e limitações

A correspondência facial do Rekognition serve apenas para comparar rostos humanos e não é compatível com o reconhecimento de rostos de personagens de desenhos animados ou entidades não humanas. Ele também não é compatível com imagens faciais tão desfocadas e granuladas que o rosto não seja reconhecido por um ser humano ou com grandes áreas do rosto cobertas por cabelo, mãos ou outros objetos. Além disso, a AWS implementou uma moratória sobre o uso policial das APIs Rekognition::CompareFaces e Rekognition::SearchFaces como parte de investigações criminais (consulte a seção 50.9 dos Termos de Serviço da AWS para obter mais informações).

A correspondência facial do Rekognition pode ser usada em diversas aplicações, como identificação de crianças desaparecidas, permissão de acesso a edifícios ou centros de conferência, verificação de identidade on-line e organização de bibliotecas pessoais de fotos. Essas aplicações variam de acordo com o número de indivíduos envolvidos, o número de imagens diferentes disponíveis para cada indivíduo, a quantidade de variáveis de confundimento esperada, os custos relativos de correspondências falsas e não correspondências falsas, entre outros fatores. Organizamos essas aplicações em dois casos de uso amplos.

Caso de uso de verificação de identidade: as aplicações de verificação de identidade usam a correspondência facial para integrar novos usuários e conceder acesso a recursos aos usuários existentes. Nesse caso de uso, a variação de confundimento geralmente é minimizada usando fotos de documentos de identidade emitidos pelo governo (como passaportes e carteiras de motorista) e selfies tiradas em tempo real que incentivam a pose frontal do rosto em boa iluminação e sem sombras. Isso permite que cada indivíduo na coleção-alvo seja representado por um pequeno número de imagens faciais e possibilita ter um grande número (na casa de milhões) de indivíduos diferentes na coleção. Nesse caso de uso, alguns usuários podem tentar enganar o sistema para obter acesso, um risco que pode ser mitigado verificando manualmente se as imagens de origem e alvo enviadas ao Rekognition atendem às expectativas do cliente e/ou exigindo que as correspondências tenham altas pontuações de similaridade (por exemplo, 95).

Caso de uso de meios diversos: essas aplicações usam a correspondência facial para identificar indivíduos em fotos e vídeos em um conjunto de pessoas conhecidas (por exemplo, encontrar membros da família em um vídeo de férias). Nesse caso de uso, há uma grande variação de confundimento entre as imagens de origem e alvo do mesmo indivíduo, portanto, as coleções-alvo podem conter menos indivíduos com mais imagens por usuário (talvez abrangendo vários anos da vida da pessoa). Como há menos incentivo para que um usuário tente enganar o sistema nesse caso de uso, o cliente pode optar por um fluxo de trabalho altamente automatizado e, dada a alta variação de confundimento, pode permitir que as correspondências tenham pontuações de similaridade mais baixas (por exemplo, 80).

Correspondência facial do Amazon Rekognition

Machine learning: a correspondência facial do Rekognition é criada usando tecnologias de ML e visão computacional. As etapas seguidas são: (1) Localizar a área da imagem de entrada que contém um rosto. (2) Extrair a região da imagem contendo a cabeça e alinhá-la de modo a colocar o rosto na posição vertical “normal”, gerando imagens faciais recortadas. (3) Converter cada imagem facial recortada em um “vetor facial” (tecnicamente, a representação matemática da imagem de um rosto). Observe que as coleções pesquisadas pelo SearchFaces são conjuntos de vetores faciais, não conjuntos de imagens faciais. (4) Comparar os vetores da face de origem e da face-alvo e retornar a pontuação de similaridade do sistema para os vetores faciais. Consulte a documentação do desenvolvedor para obter detalhes sobre as chamadas de API.

Expectativas de performance: a variação individual e de confundimento será diferente entre as aplicações dos clientes. Isso significa que a performance também será diferente entre as aplicações, mesmo oferecendo suporte ao mesmo caso de uso. Considere duas aplicações de verificação de identidade, A e B. Em cada uma delas, o usuário primeiro registra sua identidade usando uma imagem em estilo de passaporte e, em seguida, confirma a identidade usando uma selfie tirada em tempo real. A aplicação A permite o acesso ao celular usando a câmera do dispositivo para tirar selfies frontais bem iluminadas, em foco, sem partes ocultas e de alta resolução. A aplicação B permite o acesso a um edifício usando uma câmera na portaria para tirar selfies menos iluminadas, mais desfocadas e com menor resolução. Como A e B usam tipos de entradas diferentes, as taxas de erro de correspondência facial provavelmente serão diferentes, mesmo supondo que cada aplicação seja implantada com perfeição usando o Rekognition.

Metodologia baseada em testes: usamos vários conjuntos de dados para avaliar a performance. Nenhum conjunto de dados de avaliação fornece uma imagem absoluta da performance. Isso ocorre porque os conjuntos de dados de avaliação variam com base em sua composição demográfica (número e tipo de grupos definidos), na quantidade de variações de confundimento (qualidade do conteúdo, adequação à finalidade) e nos tipos e a qualidade dos rótulos disponíveis, entre outros fatores. Medimos a performance do Rekognition por testes realizados em conjuntos de dados de avaliação contendo pares de imagens do mesmo indivíduo (pares correspondentes) e de indivíduos diferentes (pares não correspondentes). Escolhemos um limite de similaridade, usamos o Rekognition para calcular a pontuação de similaridade de cada par e, com base no limite, determinamos se o par é uma correspondência ou uma não correspondência. A performance geral em um conjunto de dados é representada por dois números: a taxa de correspondências corretas (porcentagem de pares correspondentes com similaridade acima do limite) e a taxa de nãos correspondências corretas (porcentagem de pares não correspondentes com pontuação de similaridade abaixo do limite). A alteração do limite de similaridade altera as taxas de correspondências corretas e correspondências incorretas. Os grupos em um conjunto de dados podem ser definidos por atributos demográficos (por exemplo, gênero), variáveis de confundimento (por exemplo, presença ou ausência de pelos faciais) ou uma combinação dos dois. Diferentes conjuntos de dados de avaliação usam fatores diferentes, sejam esses ou outros. Por esse motivo, as taxas de correspondências corretas e não correspondências corretas, tanto gerais quanto para grupos, variam entre conjuntos de dados. Levando em consideração essa variação, nosso processo de desenvolvimento examina a performance do Rekognition usando vários conjuntos de dados de avaliação, toma medidas para aumentar as taxas de correspondências e/ou não correspondências corretas nos grupos em que a performance do Rekognition foi inferior, melhora os conjuntos de dados de avaliação e, em seguida, itera o processo.

Imparcialidade e viés: nosso objetivo é que a correspondência facial do Rekognition funcione bem para todos os rostos humanos. Para conseguir isso, usamos o processo de desenvolvimento iterativo descrito acima. Como parte desse processo, criamos conjuntos de dados que captam uma grande variedade de características faciais e tons de pele humanos em uma ampla gama de variações de confundimento. Testamos rotineiramente todos os casos de uso em conjuntos de dados de imagens faciais para os quais temos rótulos demográficos confiáveis, como gênero, idade e tom de pele, e constatamos que o Rekognition tem uma boa performance em todos os atributos demográficos. Por exemplo, a Credo AI, empresa especializada em IA responsável, realizou uma avaliação terceirizada do Rekognition usando um conjunto de dados de verificação de identidade contendo imagens de alta qualidade de pessoas com boa iluminação, sem obstruções e em foco. A Credo AI observou que a menor taxa de correspondência correta foi de 99,94816% em seis grupos demográficos definidos por tom de pele e gênero, e que a menor taxa de não correspondência correta em todos os seis grupos foi de 99,99995%, com o limite de similaridade definido como 95. Como os resultados de performance dependem de vários fatores, incluindo o Rekognition, o fluxo de trabalho do cliente e o conjunto de dados de avaliação, recomendamos que os clientes façam testes adicionais do Rekognition usando o próprio conteúdo.

Explicabilidade: se os clientes tiverem dúvidas sobre a pontuação de similaridade retornada pelo Rekognition para um determinado par de imagens de origem e destino, recomendamos que usem a caixa delimitadora e os pontos de referência facial retornados pelo Rekognition para inspecionar diretamente as imagens faciais.

Robustez: maximizamos a robustez com várias técnicas, incluindo o uso de grandes conjuntos de dados de treinamento que captam diversos tipos de variação entre um grande número de indivíduos. Como o Rekognition não pode ter, ao mesmo tempo, uma sensibilidade muito alta a pequenas diferenças entre indivíduos diferentes (como gêmeos idênticos) e uma sensibilidade muito baixa a mudanças de confundimento (como maquiagem aplicada para destacar as maçãs do rosto), o cliente deve estabelecer expectativas de taxas de correspondências e de não correspondências corretas apropriadas ao seu caso de uso e testar a performance do fluxo de trabalho, incluindo a escolha do limite de similaridade, no próprio conteúdo.

Privacidade e segurança: a correspondência facial do Rekognition processa três tipos de dados: imagens de entrada, vetores faciais das imagens de entrada e pontuações de similaridade e metadados de saída. Os vetores faciais nunca são incluídos na saída retornada pelo serviço. As entradas e saídas nunca são compartilhadas entre clientes. Os clientes podem optar por não participar do treinamento sobre conteúdo de clientes por meio do AWS Organizations ou de outros mecanismos de exclusão que podemos fornecer. Consulte a Seção 50.3 dos Termos de Serviço da AWS e as Perguntas frequentes sobre privacidade de dados da AWS para obter mais informações. Para obter informações de privacidade e segurança específicas do serviço, consulte a seção Privacidade de dados das Perguntas frequentes do Rekognition e a documentação do Amazon Rekognition Security.

Transparência: quando apropriado para um caso de uso, os clientes que incorporam as APIs de correspondência facial do Amazon Rekognition nos fluxos de trabalho devem considerar declarar o uso da tecnologia de ML e reconhecimento facial para os usuários finais e outras pessoas afetadas pela aplicação, além de oferecer aos usuários finais a opção de fornecer feedback para melhorar os fluxos de trabalho. A documentação do cliente pode fazer referência a este cartão de serviço de IA.

Governança: seguimos metodologias rigorosas para criar os serviços de IA da AWS de forma responsável, incluindo um processo de trabalho em ordem inversa para desenvolvimento de produtos que incorpora a IA responsável na fase de design, consultas de design e avaliações de implementação por especialistas dedicados em dados e ciência de IA responsável, testes de rotina, revisões com clientes e práticas recomendadas de desenvolvimento, disseminação e treinamento.

Práticas recomendadas de implantação e otimização de performance

Incentivamos os clientes a criar e operar suas aplicações com responsabilidade, conforme descrito no guia Responsible Use of Machine Learning da AWS. Isso inclui a implementação de práticas de IA responsável para lidar com aspectos essenciais, incluindo imparcialidade e viés, robustez, explicabilidade, privacidade e segurança, transparência e governança.
 
Design do fluxo de trabalho: a precisão de qualquer aplicação que usa a correspondência facial do Rekognition depende do design do fluxo de trabalho do cliente, incluindo: (1) número de indivíduos únicos para correspondência, (2) quantidade de variação de confundimento permitida, (3) escolha dos limites de similaridade, (4) modo de decisão das correspondências, (5) uniformidade da aplicação do fluxo de trabalho em todos os grupos demográficos e (6) testes periódicos para detectar desvios.
 
  1. Variação individual: o sucesso da pesquisa de uma face de origem em uma coleção de faces-alvo aumenta com o grau de dissimilaridade física entre os diferentes indivíduos no conjunto-alvo. Por exemplo, a correspondência entre gêmeos idênticos é muito mais difícil do que a correspondência entre gêmeos fraternos ou indivíduos não relacionados. Em geral, coleções-alvo com um número maior de indivíduos únicos apresentam mais risco de ter dois indivíduos únicos de aparências semelhantes, e a decisão final da correspondência exige mais atenção. Os fluxos de trabalho devem considerar a possível semelhança dos indivíduos na coleção-alvo ao interpretar as pontuações de similaridade retornadas para as imagens de origem.

  2. Variação de confundimento: ao selecionar pares de imagens de origem e alvo, os fluxos de trabalho devem incluir etapas para minimizar variações entre elas (como diferenças nas condições de iluminação). Se a variação for alta, considere adicionar várias imagens faciais (“opções”) para cada indivíduo-alvo a fim de cobrir as variações esperadas (como pose, iluminação e idade) e comparar a imagem da face de origem a cada opção de imagem-alvo. Se só for prático ter uma única opção, considere usar a foto de um rosto sem obstrução, estilo passaporte e em pose frontal. Os fluxos de trabalho devem estabelecer políticas para imagens de entrada permitidas e monitorar a conformidade por amostragem periódica e aleatória das entradas.

  3. Limite de similaridade: é importante definir um limite de similaridade apropriado para a aplicação. Caso contrário, o fluxo de trabalho poderá concluir que há uma correspondência onde não há (uma correspondência falsa) ou vice-versa (uma não correspondência falsa). O custo de uma correspondência falsa pode não ser o mesmo que o de uma não correspondência falsa. Por exemplo, o limite de similaridade apropriado para a autenticação pode ser muito maior do que o limite para meios diversos. Para definir um limite de similaridade apropriado, o cliente deve coletar um conjunto representativo de pares de entrada, rotular cada um como correspondente ou não correspondente e testar limites de similaridade maiores ou menores até chegar a um resultado satisfatório.

  4. Supervisão humana: se o fluxo de trabalho da aplicação do cliente envolver um caso de uso confidencial ou de alto risco, como uma decisão que afeta os direitos de uma pessoa ou o acesso a serviços essenciais, recomendamos incorporar a análise humana, quando apropriado. Os sistemas de correspondência facial podem servir como ferramentas para reduzir o esforço inerente a soluções totalmente manuais e permitir que humanos revisem e avaliem rapidamente possíveis correspondências e não correspondências.

  5. Consistência: os clientes devem definir e aplicar políticas que identifiquem os tipos de imagens de origem e alvo permitidos e determinem como humanos combinam o limite de similaridade e o próprio julgamento para gerar correspondências. Essas políticas devem ser consistentes em todos os grupos demográficos. A modificação inconsistente das imagens de origem e alvo ou dos limites de similaridade pode levar a resultados injustos para diferentes grupos demográficos.

  6. Desvio de performance: uma alteração nos tipos de imagens que um cliente envia ao Rekognition, ou uma alteração no serviço, pode levar a resultados diferentes. Para lidar com essas mudanças, os clientes devem considerar repetir periodicamente os testes de performance do Rekognition e ajustar o fluxo de trabalho quando necessário.

Mais informações

  • Se tiver dúvidas ou comentários sobre os cartões de serviço de IA da AWS, preencha este formulário.

Glossário

Imparcialidade e viés se referem a como um sistema de IA afeta diferentes subpopulações de usuários (por exemplo, por gênero, etnia).

Explicabilidade se refere a ter mecanismos para entender e avaliar as saídas de um sistema de IA.

Robustez se refere a ter mecanismos para garantir que um sistema de IA opere de forma confiável.

Privacidade e segurança se referem à proteção dos dados contra roubo e exposição.

Governança se refere a ter processos para definir, implementar e aplicar práticas de IA responsável na organização.

Transparência se refere a comunicar informações sobre um sistema de IA para que as partes interessadas possam fazer escolhas informadas sobre o uso do sistema.