Publicado: Sep 15, 2021
O Amazon Comprehend, um serviço de processamento de linguagem natural (PNL) que usa machine learning para revelar informações em textos, agora permite extrair entidades personalizadas de documentos em vários formatos (PDF, Word, texto simples) e layouts (por exemplo, marcadores, listas). Isso permite que você extraia insights com mais facilidade e automatize ainda mais seus fluxos de trabalho de processamento de documentos.
Antes deste anúncio, você só podia usar o Amazon Comprehend em documentos de texto simples, o que exigia o nivelamento de documentos em texto legível por máquina, muitas vezes reduzindo a qualidade do contexto dentro do documento. Esse novo recurso combina o poder do Processamento de linguagem natural (NLP) e do Reconhecimento óptico de caracteres (OCR) para extrair entidades personalizadas de documentos PDF, do Word e de texto simples usando a mesma API, sem necessidade de pré-processamento.
O novo recurso de reconhecimento de entidades personalizadas utiliza o contexto estrutural do texto (posicionamento de texto em uma página) combinado com o contexto da linguagem natural para extrair entidades personalizadas de texto denso, listas numeradas e marcadores. Essa combinação também permite que os clientes extraiam entidades desconexas ou desconectadas que não fazem parte imediatamente da mesma extensão de texto (por exemplo, entidades aninhadas em uma tabela). Esse novo recurso também dispensa a necessidade de os clientes criarem uma lógica personalizada para converter arquivos PDF e do Word em texto simples e nivelado antes de usar o Comprehend. Ao oferecer suporte nativo a novos formatos de documentos, o Comprehend oferece benefícios importantes para clientes em setores como hipotecas, finanças e seguradoras, que processam diversos formatos e layouts de documentos. Por exemplo, as empresas hipotecárias agora podem processar pedidos mais rapidamente, extraindo as informações bancárias, o endereço e o nome do cosignatário de documentos como PDFs digitalizados de extratos bancários, boletos de pagamento e cartas de verificação de emprego.
Para treinar um modelo de reconhecimento de entidades personalizadas que pode ser usado em documentos PDF, do Word e de texto simples, os clientes precisam primeiro fazer anotações em documentos PDF usando um modelo de anotação personalizado do Amazon SageMaker Ground Truth que é fornecido pelo Amazon Comprehend. O modelo de reconhecimento de entidades personalizadas aproveita a linguagem natural e informações posicionais (por exemplo, coordenadas) do texto para extrair com precisão entidades personalizadas que anteriormente podiam ser afetadas ao nivelar um documento. Para obter detalhes passo a passo sobre como anotar seus documentos, consulte Anotação de documento personalizada para extrair entidades nomeadas em documentos usando o Amazon Comprehend. Quando terminar de anotar, você poderá treinar um modelo de reconhecimento de entidades personalizadas e usá-lo para extrair entidades personalizadas do PDF e do Word para processamento em lote (assíncrono). Para extrair texto e localizações espaciais de texto em documentos PDF digitalizados, o Amazon Comprehend chama o Amazon Textract em seu nome como uma etapa antes do reconhecimento de entidades personalizadas. Para obter detalhes sobre como treinar e usar seu modelo, consulte Extrair entidades personalizadas de documentos em seu formato nativo com o Amazon Comprehend.
O suporte para reconhecimento de entidades personalizadas para documentos de texto simples, PDF e do Word está disponível diretamente por meio do console da AWS e da AWS CLI. Para ver uma lista das regiões da AWS com suporte para o Comprehend e o Textract, acesse a Tabela de regiões da AWS para toda a infraestrutura global da AWS.
Para saber mais e começar, acesse a página do produto do Amazon Comprehend, a página de processamento inteligente de documentos ou nossa documentação.