Visão geral

O serviço Amazon Textract extrai texto impresso, manuscrito e dados estruturados de imagens de documentos. Nesse serviço, o recurso AnalyzeID lê e extrai dados de texto estruturados de imagens de documentos de identidade, incluindo, no momento, carteiras de habilitação e passaportes dos EUA. Esse recurso facilita a automatização e agiliza o processamento de documentos pelos clientes.

O AnalyzeID processa o texto no documento de identidade para prever pares de chave-valor explícitos e implícitos. O AnalyzeID pode extrair pares de chave-valor explícitos, em que uma chave (“Data de emissão”) aparece no documento e está alinhada ao valor (“18/3/2018”), e pares de chave-valor implícitos que podem não estar ao lado de chaves explícitas (“Maria” aparece no centro da carteira de habilitação, mas não está marcado como “Primeiro nome”). O serviço normaliza pares de chave-valor em uma taxonomia comum de 21 chaves conhecidas, para que os clientes possam comparar as informações entre tipos de ID diferentes. Por exemplo, o serviço extrai o número de uma carteira de habilitação e o número de um passaporte americano, rotulando ambos como “Número de identificação do documento”. Para avaliar a precisão do AnalyzeID, comparamos essas previsões com a verdade fundamental. As chaves e valores da verdade fundamental foram corrigidos por um anotador humano. Cada par de chave-valor previsto será considerado um acerto se a previsão corresponder à verdade fundamental, e um erro no caso contrário. Métricas de qualidade, como precisão, revocação e pontuação F1, dependem do número de acertos e erros.

Os documentos de identidade diferem entre as jurisdições (as carteiras de habilitação da Virgínia são diferentes das da Califórnia) e dentro das jurisdições, uma vez que cada jurisdição evolui seus documentos ao longo do tempo. Cada versão de um documento de identificação pode diferir pelas chaves incluídas e pelos valores permitidos para cada chave. Também existem fatores (chamados de “variáveis de confundimento”) que dificultam o reconhecimento. Os documentos podem ter designs gráficos complexos em torno do texto e capas plásticas laminadas brilhantes sobre o texto. Os documentos podem ser danificados, por exemplo, por serem guardados em uma bolsa ou no bolso, e ter suas informações principais obscurecidas. Por fim, o documento pode estar mal iluminado, obstruído (por exemplo, por uma parte da mão segurando o documento na imagem) ou não estar em foco. O AnalyzeID foi projetado para reconhecer texto nessas imagens de documentos, ignorando as variáveis de confundimento.

Casos de uso pretendidos e limitações

O AnalyzeID se destina ao uso em carteiras de habilitação emitidas por estados dos EUA e passaportes emitidos pelo governo norte-americano. Ele não foi treinado para uso em documentos emitidos por governos territoriais (por exemplo, Porto Rico) ou em outras formas de identificação, como cartões do programa “Global Entry” (entrada global) ou certidões de nascimento. O AnalyzeID é compatível com documentos emitidos nos últimos dezesseis anos (desde 2007). Isso abrange aproximadamente três iterações de atualizações de design nos estados, que acontecem aproximadamente a cada cinco anos. Esse período cobre todos os documentos não expirados. As carteiras de habilitação dos EUA expiram com no máximo doze anos, e os passaportes, com no máximo dez.

O AnalyzeID permite a etapa de extração de texto em diversas aplicações desenvolvidas pelos clientes. Essas aplicações normalmente oferecem suporte aos usuários finais na conclusão de tarefas on-line. Por exemplo, uma aplicação de serviços financeiros pode registrar novos usuários com menos problemas de digitação ou outros erros ao permitir que o usuário digitalize o conteúdo da carteira de habilitação. Da mesma forma, uma aplicação de atendimento de saúde pode permitir que o usuário confirme o endereço ou outras informações da conta mais rapidamente e com menos erros ao agendar consultas. As aplicações diferem principalmente em termos de: 1) pares de chave-valor relevantes; 2) processo empregado para a captura da imagem; e 3) resolução das imagens enviadas. Ao incorporar o AnalyzeID em qualquer fluxo de trabalho da aplicação, o cliente deve avaliar a necessidade de supervisão humana e apoiar a análise da saída do AnalyzeID por revisores humanos, conforme necessário.

Design do recurso AnalyzeID do Amazon Textract

Machine learning: o AnalyzeID foi criado usando tecnologias de ML e optical character recognition (OCR – reconhecimento óptico de caracteres). As etapas seguidas são: o AnalyzeID recebe a imagem de um documento de identidade como entrada. Um modelo de OCR identifica o texto no documento. Um segundo modelo aprendido por ML processa toda a imagem do documento e a saída de OCR para retornar nomes e conteúdos de campos como pares de chave-valor. Consulte a documentação do desenvolvedor para obter detalhes sobre as chamadas de API.

Expectativas de performance: as variáveis de confundimento serão diferentes entre as aplicações dos clientes. Isso significa que a performance também será diferente entre as aplicações. Considere duas aplicações diferentes, A e B, de verificação de nome e endereço. A aplicação A permite que a equipe de segurança do edifício compare o nome e o endereço na carteira de habilitação de um visitante ao nome e endereço da pessoa esperada no local. A aplicação B permite que um profissional de recrutamento colete informações pessoais do candidato durante uma entrevista em vídeo. Na aplicação A, o agente de segurança usa um digitalizador corporativo de documentos de identificação para criar imagens bem iluminadas, em foco e sem partes ocultas. Na aplicação B, o entrevistado segura a carteira de habilitação na mão e usa a própria câmera para fotografá-la, com maior risco de falta de foco, reflexos e oclusões da imagem. Como geram imagens de entrada de qualidades diferentes pela variação de dispositivos e processos de captura de imagem, as aplicações A e B provavelmente terão taxas de erro diferentes, mesmo supondo que cada aplicação seja implantada com perfeição usando o Textract.

Metodologia baseada em testes: usamos vários conjuntos de dados para avaliar a performance. Nenhum conjunto de dados de avaliação fornece uma imagem absoluta da performance. Isso ocorre porque os conjuntos de dados de avaliação variam com base em sua composição demográfica (número e tipo de grupos definidos), na quantidade de variações de confundimento (qualidade do conteúdo, adequação à finalidade) e nos tipos e a qualidade dos rótulos disponíveis, entre outros fatores. Medimos a performance do Textract por testes realizados em conjuntos de dados de avaliação contendo imagens documentos de identidade. A performance geral em um conjunto de dados é representada pela pontuação F1, que equilibra a porcentagem de campos previstos corretos (precisão) e a porcentagem de campos corretos incluídos na previsão (revocação). As pontuações F1 são limitadas pelo intervalo [0,1]. Alterar os limites de confiança nos pares de chave-valor altera a pontuação F1. Os grupos em um conjunto de dados podem ser definidos por atributos-chave (como jurisdição, tamanho do sobrenome), variáveis de confundimento (como layout de design gráfico, qualidade da imagem) ou uma combinação dos dois. Diferentes conjuntos de dados de avaliação usam fatores diferentes, sejam esses ou outros. Por esse motivo, as pontuações F1, tanto gerais quanto para grupos, variam entre conjuntos de dados. Levando em consideração essa variação, nosso processo de desenvolvimento examina a performance do AnalyzeID usando vários conjuntos de dados de avaliação, toma medidas para aumentar a pontuação F1 nos grupos em que a performance do AnalyzeID foi inferior, melhora os conjuntos de dados de avaliação e, em seguida, itera o processo.

Imparcialidade e viés: nosso objetivo é que o AnalyzeID extraia campos de texto de documentos de identidade com alta precisão, independentemente da jurisdição da habilitação ou dos atributos demográficos da pessoa representada pelo documento. Para conseguir isso, usamos o processo de desenvolvimento iterativo descrito acima. Como parte desse processo, criamos conjuntos de dados para capturar a gama de jurisdições (estados dos EUA) e modelos processados pelo AnalyzeID, sob diversas condições de qualidade de imagem. Realizamos rotineiramente testes usando conjuntos de dados de imagens de documentos para os quais temos pares de chave-valor confiáveis e constatamos que o AnalyzeID tem uma boa performance em todas as jurisdições e com todos os atributos demográficos. Por exemplo, em um conjunto de dados interno composto pela frente das carteiras de habilitação de 50 estados dos EUA, a menor precisão da pontuação F1 entre os estados é de 95%, e a menor pontuação F1 para grupos demográficos definidos por idade, status de serviço militar e comprimento do sobrenome é de 99%. Como os resultados não dependem apenas do AnalyzeID, mas também do fluxo de trabalho do cliente e do conjunto de dados de avaliação, recomendamos que os clientes testem o AnalyzeID no próprio conteúdo.

Explicabilidade: os clientes têm acesso às pontuações de confiança de cada campo de texto, que podem ser usadas para estabelecer limites de confiança e entender melhor a saída do AnalyzeID. A chave prevista fornece informações sobre a previsão do valor.

Robustez: maximizamos a robustez com várias técnicas, incluindo o uso de grandes conjuntos de dados de treinamento que captam diversos tipos de variação entre um grande número de documentos. As entradas ideais para o AnalyzeID contêm imagens relativamente sem sombras, reflexos ou outras obstruções, com o documento orientado na vertical dentro da moldura da imagem. No entanto, os modelos do AnalyzeID são treinados para serem resilientes mesmo quando as entradas não atenderem às condições ideais.

Privacidade e segurança: o AnalyzeID captura e processa texto. As entradas e saídas nunca são compartilhadas entre clientes.  Os clientes podem optar por não participar do treinamento sobre conteúdo de clientes por meio do AWS Organizations ou de outros mecanismos de exclusão que podemos fornecer. Consulte a Seção 50.3 dos Termos de Serviço da AWS e as Perguntas frequentes sobre privacidade de dados da AWS para obter mais informações. Para obter informações específicas sobre a privacidade e a segurança do serviço, consulte a seção Privacidade de dados das Perguntas frequentes sobre o Textract e a documentação do Amazon Textract Security.

Transparência: quando apropriado para um caso de uso, os clientes que incorporam o AnalyzeID nos fluxos de trabalho devem considerar declarar o uso da tecnologia de ML para os usuários finais e outras pessoas afetadas pela aplicação, além de oferecer aos usuários finais a opção de fornecer feedback para melhorar os fluxos de trabalho. A documentação do cliente pode fazer referência a este cartão de serviço de IA.

Governança: seguimos metodologias rigorosas para criar os serviços de IA da AWS de forma responsável, incluindo um processo de trabalho em ordem inversa para desenvolvimento de produtos que incorpora a IA responsável na fase de design, consultas de design e avaliações de implementação por especialistas dedicados em dados e ciência de IA responsável, testes de rotina, revisões com clientes e práticas recomendadas de desenvolvimento, disseminação e treinamento.

Práticas recomendadas de implantação e otimização de performance

Incentivamos os clientes a criar e operar suas aplicações com responsabilidade, conforme descrito no guia Responsible Use of Machine Learning da AWS. Isso inclui a implementação de práticas de IA responsável para lidar com aspectos essenciais, incluindo imparcialidade e viés, robustez, explicabilidade, privacidade e segurança, transparência e governança.
 
Design do fluxo de trabalho: definimos performance como a experiência dos usuários finais que interagem com uma aplicação desenvolvida pelo cliente que inclui o AnalyzeID para extração de texto. A performance de qualquer aplicação usando o AnalyzeID depende do design do fluxo de trabalho do cliente, incluindo: (1) variação de imagem, (2) limite de confiança, (3) supervisão humana, (4) consistência do fluxo de trabalho e (5) testes periódicos para verificar variações da performance.
 
  1. Variação de imagem: as imagens ideais estão relativamente livres de sombras, reflexos ou outras obstruções, com o documento capturado em ângulo reto e orientado na vertical dentro da moldura da imagem. Os clientes podem fornecer orientações apropriadas para a captura de boas imagens aos usuários finais.

  2. Limite de confiança: os clientes podem ajustar a performance definindo um filtro ou limite para os pares de chave-valor que o AnalyzeID produz, com base na pontuação de confiança atribuída a cada par. Para obter melhor precisão, escolha um limite alto. Para obter melhor revocação, escolha um limite mais baixo. Para definir um limite apropriado, o cliente pode coletar um conjunto representativo de entradas, rotular os campos de texto de cada um e testar limites mais altos ou mais baixos até obter uma experiência de usuário satisfatória.

  3. Supervisão humana: se o fluxo de trabalho da aplicação do cliente envolver um caso de uso confidencial ou de alto risco, como uma decisão que afeta os direitos de uma pessoa ou o acesso a serviços essenciais, recomendamos incorporar a análise humana, quando apropriado. A extração automática de chave-valor com o AnalyzeID pode servir como uma ferramenta para reduzir o esforço inerente a soluções totalmente manuais e permitir que humanos revisem e avaliem rapidamente documentos de identidade.

  4. Consistência: os clientes devem definir e aplicar políticas que identifiquem os tipos de imagens de entrada permitidos e determinem como humanos combinam o limite de confiança e o próprio julgamento para gerar os resultados finais. Essas políticas devem ser consistentes entre grupos demográficos. A modificação inconsistente das imagens de entrada ou dos limites de confiança pode levar a resultados injustos para diferentes grupos demográficos.

  5. Desvio de performance: uma alteração nos tipos de imagens que um cliente envia ao AnalyzeID, ou uma alteração no serviço, pode levar a resultados diferentes. Para lidar com essas mudanças, os clientes devem considerar repetir periodicamente os testes de performance do Textract e ajustar o fluxo de trabalho quando necessário.

Mais informações

Glossário

Imparcialidade e viés se referem a como um sistema de IA afeta diferentes subpopulações de usuários (por exemplo, por gênero, etnia).

Explicabilidade se refere a ter mecanismos para entender e avaliar as saídas de um sistema de IA.

Robustez se refere a ter mecanismos para garantir que um sistema de IA opere de forma confiável.

Privacidade e segurança se referem à proteção dos dados contra roubo e exposição.

Governança se refere a ter processos para definir, implementar e aplicar práticas de IA responsável na organização.

Transparência se refere a comunicar informações sobre um sistema de IA para que as partes interessadas possam fazer escolhas informadas sobre o uso do sistema.