Todos os dados extraídos retornam com as coordenadas da caixa de delimitação, que é uma moldura do polígono envolvendo cada peça de dados identificados, como uma única palavra, uma linha, uma tabela ou mesmo células individuais dentro de uma tabela. Isso é útil por ser capaz de auditar de onde uma palavra ou um número são originados no documento fonte ou para orientar o usuário nos sistemas de busca de documento que retornam verificações dos documentos originais como resultado da busca. Por exemplo, ao fazer uma busca em registros médicos por detalhes do histórico do paciente, os usuários podem facilmente avaliar o documento fonte e rapidamente fazer anotações para buscas futuras.

Saiba mais »

Reconhecimento óptico de caracteres

O Amazon Textract usa a tecnologia de reconhecimento óptico de caracteres (OCR) para detectar automaticamente texto impresso, manuscritos e números na digitalização ou renderização de um documento, como um documento legal ou a digitalização de um livro.

Saiba mais »

Extração de formulários

É possível detectar pares de chave-valor nas imagens de um documento e reter o contexto sem intervenção manual. Um par de chave-valor é um conjunto de itens de dados vinculados. Por exemplo, em um documento, o campo “Nome” é a chave e “Jane” é o valor. Isso faz com que seja fácil importar os dados extraídos para um banco de dados ou fornecê-los como uma variável em uma aplicação. Com as soluções tradicionais de OCR, as chaves e os valores são extraídos como texto simples e a relação entre eles é perdida, a menos que regras embutidas em código sejam escritas e mantidas para cada formulário.

Saiba mais »

Extração de tabelas

O Amazon Textract preserva a composição dos dados armazenados nas tabelas durante a extração. Isso é útil para documentos compostos majoritariamente por dados estruturados, como relatórios financeiros ou registros médicos com tabelas em colunas e linhas. É possível carregar automaticamente os dados extraídos em um banco de dados usando um esquema predefinido. Por exemplo, as linhas de números e quantidades de itens em um relatório de inventário reterão a associação para que uma aplicação de gerenciamento de inventário possa facilmente incrementar os totais do item.

Saiba mais »

Extração baseada em query

Agora, o Amazon Textract oferece a flexibilidade de especificar os dados necessários para fazer a extração de documentos usando queries. É possível especificar as informações necessárias na forma de perguntas em linguagem natural (por exemplo, “Qual é o nome do cliente”) e receber as informações exatas (por exemplo, “João da Silva”) como parte da resposta da API. Não é necessário conhecer a estrutura dos dados no documento (tabela, formulário, campo implícito, dados aninhados) ou preocupar-se com as variações entre versões e formatos do documento. As queries do Textract são treinadas previamente em uma grande variedade de documentos, inclusive holerites, extratos bancários, formulários W-2, formulários de solicitação de empréstimo, letras hipotecárias, documentos de sinistros e cartões de seguros. A flexibilidade oferecida pelas queries do Textract reduz a necessidade de implementar pós-processamento, dependência de revisões manuais dos dados extraídos ou a necessidade de treinar modelos de ML.

Saiba mais »

Reconhecimento de manuscritos

Muitos documentos, como formulários médicos de admissão e candidaturas de emprego, incluem texto manuscrito e impresso. O Amazon Textract pode extrair ambos os textos a partir de documentos em inglês com altas taxas de confiabilidade, seja texto escrito sem formatação ou em tabelas. Os documentos também podem conter uma mistura de texto digitado e manuscrito.

Saiba mais »

Faturas e recibos

Faturas e recibos podem ter uma grande variedade de formatos, o que dificulta e aumenta o tempo para extrair manualmente dados em escala. O Amazon Textract usa machine learning (ML) para compreender o contexto das faturas e recibos e extrai automaticamente os dados relevantes, como o nome do vendedor, número da fatura, preço dos itens, valor total e modo de pagamento.

Saiba mais »

Documentos de identidade

O Amazon Textract usa machine learning (ML) para compreender o contexto dos documentos de identidade, como o passaporte e a carteira de habilitação dos EUA, sem a necessidade de recorrer a modelos ou configuração. Você pode extrair automaticamente informações específicas como a data de vencimento ou a data de nascimento e identificar e extrair de forma inteligente informações implícitas, como nome e endereço. Ao usar a Analyze ID, negócios que oferecem serviços de verificação de identidade, e aqueles das áreas de finanças, saúde e seguros, podem automatizar facilmente a criação de contas, agendamento de compromissos, candidaturas a emprego, e muito mais, ao permitir que os clientes enviem uma foto ou digitalização do documento de identidade.

Saiba mais »

Caixas delimitadoras

Todos os dados extraídos são retornados com coordenadas da caixa delimitadora: estruturas de polígonos envolvendo cada parte de dado identificado, como uma palavra, uma linha, uma tabela ou células individuais dentro de uma tabela. Isso ajuda a auditar a origem de uma palavra ou número no documento fonte e orienta o usuário quando os resultados de busca oferecem digitalizações de documentos originais. Por exemplo, ao fazer uma busca em registros médicos por detalhes do histórico do paciente, é possível localizar facilmente o documento fonte e fazer anotações para buscas futuras.

Saiba mais »

Limites de confiança ajustáveis

Ao extrair informações de documentos, o Amazon Textract retorna uma pontuação de confiança para tudo que ele identifica, o que permite tomar decisões conscientes sobre como usar os resultados. Por exemplo, se uma informação for extraída de registros fiscais e for necessário garantir que ela seja de alta precisão, é possível marcar qualquer item com uma pontuação de confiança abaixo de 95% para que ele seja analisado por um ser humano. É possível definir um limite inferior para outros documentos nos quais os erros têm consequências negativas menores, como no processamento de curriculum ou na digitalização de registros arquivados.

Saiba mais »

Fluxo de trabalho integrado de revisão humana

O Amazon Textract está integrado diretamente com o Amazon Augmented AI (Amazon A2I) para que seja possível implementar facilmente a análise humana de texto impresso e manuscrito extraído de documentos. Muitas aplicações que extraem texto precisam que pessoas revisem as previsões de baixa confiança para garantir que os resultados sejam corretos, mas a construção de sistemas de revisão humana pode levar tempo e ser cara. O Amazon A2I oferece fluxos de trabalho integrados de revisão humana para que seja possível revisar facilmente as previsões. Escolha o limite de confiança da aplicação, e todas as previsões com confiança abaixo do limite são enviadas automaticamente para a análise revisão para validação. Também é possível especificar quais pares valor-chave devem ser enviados para revisão humana e configurar o A2I para enviar os documentos selecionados aleatoriamente para revisão. Use um grupo de revisores da sua própria organização ou acesse a força de trabalho de mais de 500 mil prestadores de serviço independentes que já desempenham tarefas de machine learning por meio do Amazon Mechanical Turk. Também é possível usar a força de trabalho de prestadores de serviço que já foram testados pela AWS em termos de qualidade e cumprimento de procedimentos de segurança. Para saber mais sobre a implementação do fluxo de trabalho de revisão humana, consulte o site do Amazon A2I e a integração do Amazon A2I com o Amazon Textract no guia de desenvolvedor. 

Definição de preços do Amazon Textract

O Amazon Textract é um serviço de machine learning (ML) que extrai automaticamente texto impresso ou manuscrito e dados de documentos digitalizados. Esse recurso faz mais do que o simples reconhecimento óptico de caracteres (OCR): ele identifica, entende e extrai dados de formulários e tabelas. Com o Amazon Textract, o pagamento é feito conforme o uso. Não há taxas mínimas ou compromissos antecipados. O Amazon Textract cobra somente pelas páginas processadas, quer você extraia texto, texto com tabelas, dados de formulários e consultas ou processe faturas e documentos de identidade. Consulte as Perguntas frequentes para saber mais detalhes sobre as páginas e o uso aceitável do Textract.

Definição de preços do Amazon Textract
Saiba mais sobre a definição de preço do Amazon Textract

Comece a usar o Amazon Textract sem compromissos antecipados ou contratos de longo prazo.

Saiba mais 
Cadastre-se para obter uma conta gratuita
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Comece a criar no console
Comece a criar no console

Comece a criar com o Amazon Textract no Console de Gerenciamento da AWS.

Cadastrar-se