Publicado en: Apr 21, 2022
Amazon Textract es un servicio de machine learning que extrae texto, escritura a mano y datos de cualquier documento o imagen de manera automática. Textract ahora brinda la flexibilidad de especificar los datos que necesita extraer de los documentos con las nuevas características de consulta dentro de la API para analizar documentos. No necesita conocer la estructura de los datos en el documento (tabla, formulario, campo implícito, datos anidados) ni preocuparse por las variaciones entre las versiones y los formatos del documento. Las consultas aprovechan una combinación de indicaciones visuales, espaciales y de lenguaje para extraer la información que busca con gran precisión.
Las soluciones tradicionales de OCR tienen dificultades para extraer datos con precisión de la mayoría de los documentos no estructurados y semiestructurados debido a las variaciones significativas en la forma en que se presentan los datos en los múltiples formatos y versiones de estos documentos. Debe implementar un código de posprocesamiento personalizado o revisar manualmente la información extraída de estos documentos. También debe analizar toda la salida del OCR a fin de extraer la información que necesita para sus procesos comerciales. Con la característica de consulta, podrá especificar la información que necesita en forma de preguntas en lenguaje natural (por ejemplo: “¿Cuál es el nombre del cliente?”) y recibir la información exacta (por ejemplo: “John Doe”) como parte de la respuesta de la API. Las consultas también permiten asignar un alias a cada pregunta, lo que facilita la integración de la salida con sus sistemas descendentes. Además, la característica de consulta se entrenó previamente con una gran variedad de documentos no estructurados, semiestructurados y estructurados. Algunos ejemplos incluyen comprobantes de pago, extractos bancarios, formularios W-2, formularios de solicitud de préstamo, pagarés hipotecarios y tarjetas de seguro y vacunación.
Para obtener más información sobre esta nueva característica, puede leer una publicación de blog con el paso a paso para comenzar ahora o consultar la documentación. Los precios de esta nueva característica están disponibles en la página de precios de Amazon Textract.
Las consultas de análisis de documentos de Textract estarán disponibles en Este de EE. UU. (Ohio), Este de EE. UU. (Norte de Virginia), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Asia-Pacífico (Bombay), Asia-Pacífico (Seúl), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Canadá (centro), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), AWS GovCloud (Este de EE. UU.) y AWS GovCloud (Oeste de EE. UU.) a partir del 31 de marzo de 2022. Haga clic aquí para comenzar a utilizar las consultas de análisis de documentos.