Publicado: Jan 26, 2022
O Amazon Textract é um serviço de machine learning que extrai automaticamente texto, manuscritos e dados de documentos digitalizados, com recursos que vão além do simples Optical Character Recognition (OCR, reconhecimento óptico de caracteres), para identificar, entender e extrair dados de formulários e tabelas.
Anteriormente, os clientes precisavam converter documentos PDF em formatos PNG ou JPEG antes de chamar as APIs síncronas do Textract - (DetectDocumentText, AnalyzeDocument e AnalyzeExpense and AnalyzeID) para extrair texto e dados de documentos como formulários de solicitação, faturas e recibos, contratos/acordos, documentos de identificação e formulários de inscrição. A partir de hoje, o Amazon Textract remove essa etapa de pré-processamento e oferece suporte a documentos PDF de página única em operações síncronas para que os clientes possam extrair texto e dados de documentos PDF sem converter documentos de PDF em PNG ou JPEG.
Além disso, o Amazon Textract agora também oferece suporte ao processamento de imagens codificadas JPEG 2000 em documentos PDF. Agora, você pode extrair texto e dados de imagens codificadas JPEG 2000 nos seus documentos PDF.
Para começar, faça login no console do Amazon Textract para testar seus documentos PDF. Para saber mais sobre os recursos do Textract, consulte o site do Amazon Textract, o guia do desenvolvedor ou a página de recursos.