Extraia entidades personalizadas de imagens e arquivos JSON do Textract com o Amazon Comprehend

Publicado: Mar 24, 2022

O Amazon Comprehend agora oferece suporte a documentos em formatos de imagem, além de texto, PDFs e Word. Agora, os clientes podem usar o reconhecimento de entidades personalizadas do Comprehend para extrair entidades de arquivos de imagem (JPG, PNG, TIFF) e também podem usar o Comprehend diretamente nas saídas JSON do Amazon Textract para extrair entidades personalizadas de documentos. Com esse lançamento, os clientes podem simplificar seus fluxos de trabalho de processamento inteligente de documentos (IDP), aproveitando uma integração pronta para uso entre o Comprehend e o Textract para extrair entidades de documentos. Veja abaixo uma descrição detalhada desses recursos:

NER personalizado em arquivos de imagem: o Amazon Comprehend lançou anteriormente o suporte ao reconhecimento de entidades personalizadas para documentos PDF e Word (consulte o anúncio para obter detalhes). A partir de hoje, os clientes podem usar o Comprehend para também extrair informações de documentos em arquivos de imagem (JPG, PNG, TIFF) para oferecer suporte a diversos fluxos de trabalho de processamento de documentos. Esse recurso elimina a necessidade de pós-processamento da saída de OCR antes de concluir a extração de entidades com o Comprehend. Primeiro, os clientes fazem anotações e treinam um modelo de reconhecimento de entidades personalizadas em documentos PDF. O modelo de reconhecimento de entidades personalizadas treinado aproveita a linguagem natural e informações posicionais (por exemplo, coordenadas) do texto para extrair com precisão entidades personalizadas de PDFs, documentos do Word, arquivos de texto simples e, agora, formatos de imagem durante a inferência. Consulte a documentação para obter mais detalhes.

NER personalizado em saídas JSON do Textract: a partir de hoje, os clientes podem usar suas saídas JSON DetectDocumentText ou AnalyzeDocument do Textract como entrada durante a inferência de NER personalizada do Comprehend. Ao aproveitar uma saída existente do Textract, os clientes podem simplificar ainda mais seus fluxos de trabalho de processamento de documentos (economizando tempo e dinheiro) e estender seus fluxos de trabalho para extrair entidades personalizadas de um conjunto mais amplo de documentos. Consulte a documentação para obter mais detalhes.

Para saber mais e começar, acesse a página do produto do Amazon Comprehend.

Extraia entidades personalizadas de imagens e arquivos JSON do Textract com o Amazon Comprehend

Encerramento do suporte para o Internet Explorer