Publicado: Apr 21, 2022
O Amazon Textract é um serviço de machine learning que extrai automaticamente texto impresso ou manuscrito e dados de qualquer documento ou imagem. O Textract agora oferece a flexibilidade de especificar os dados que você precisa extrair de documentos usando os novos recursos Queries dentro da API Analyze Document. Não é necessário conhecer a estrutura dos dados no documento (tabela, formulário, campo implicado, dados aninhados) nem preocupar-se com as variações nas versões e formatos do documento. O Queries aproveita uma combinação de dicas visuais, espaciais e de idioma para extrair as informações que você procura com alta precisão.
As soluções tradicionais de OCR têm dificuldades em extrair dados com precisão dos documentos mais desestruturados e semiestruturados por causa de variações significativas em como os dados são colocados em várias versões e formatos desses documentos. Você precisa implementar um código de pós-processamento personalizado ou analisar manualmente as informações extraídas desses documentos. Também é necessário analisar toda a saída do OCR para extrair as informações necessárias para seus processos empresariais. Com o Queries você conseguirá especificar as informações que precisa na forma de perguntas em linguagem natural (por exemplo, “Qual é o nome do cliente”) e receber as informações exatas (por exemplo, “João da Silva”) como parte da resposta da API. O Queries também permite que você atribua um apelido a cada pergunta, facilitando integrar a saída com seus sistemas downstream. Além disso, o Queries é pré-treinado em uma grande variedade de documentos desestruturados, semiestruturados e estruturados. Alguns exemplos incluem comprovantes de pagamento, extratos bancários, W-2s, formulários de solicitação de empréstimo, letras hipotecárias, cartões de vacinação e seguro.
Para saber mais sobre esse novo recurso, você pode ler um blog detalhado para começar a usar agora mesmo ou visualizar a documentação. O preço desse novo recurso está disponível na página de preço do Amazon Textract.
O Analyze Document Queries do Textract estará disponível no Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Norte da Califórnia), Oeste dos EUA (Oregon), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Seul), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Canadá (Central), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (Paris), AWS GovCloud (EUA-Leste) e AWS GovCloud (EUA-Oeste) a partir de 31 de março de 2022. Clique aqui para começar a usar o Analyze Documents Queries.