Publicado en: Jan 26, 2022

Amazon Textract es un servicio de machine learning que extrae texto, escritura a mano y datos de documentos escaneados de forma automática y va más allá del simple reconocimiento óptico de caracteres (OCR) para identificar, comprender y extraer datos de formularios y tablas.

Antes, los clientes tenían que convertir sus documentos PDF a los formatos PNG o JPEG antes de llamar a las API síncronas de Textract (DetectDocumentText, AnalyzeDocument y AnalyzeExpense y AnalyzeID) para extraer texto y datos de documentos como formularios de reclamación, facturas y recibos, contratos y acuerdos, documentos de identificación y formularios de solicitud. A partir de hoy, Amazon Textract elimina ese paso previo al procesamiento y admite documentos PDF de una sola página en operaciones síncronas, de modo que los clientes pueden extraer texto y datos de documentos PDF sin necesidad de convertir los documentos PDF a PNG o JPEG.

Además, Amazon Textract también es compatible con el procesamiento de imágenes codificadas JPEG 2000 dentro de documentos PDF. Ahora puede extraer texto y datos de imágenes codificadas JPEG 2000 contenidas en sus documentos PDF.

Para comenzar, inicie sesión en la consola de Amazon Textract para probar los documentos PDF. Si desea obtener más información sobre las capacidades de Textract, visite el sitio web de Amazon Textract, guía para desarrolladores o la página de recursos.