Publicado en: Sep 15, 2021

Amazon Comprehend, un servicio de procesamiento de lenguaje natural (NLP) que utiliza machine learning para descubrir información en el texto, ahora permite extraer entidades personalizadas de documentos en una variedad de formatos (PDF, Word, texto sin formato) y diseños (p. ej., viñetas, listas). Esto le permite extraer información más fácilmente y automatizar aún más los flujos de trabajo de procesamiento de documentos.

Antes de que se hiciera este anuncio, solo se podía utilizar Amazon Comprehend en documentos de texto sin formato, lo que obligaba a aplanar los documentos para convertirlos en texto legible de forma automática, reduciendo a menudo la calidad del contexto dentro del documento. Esta nueva característica combina la potencia del Procesamiento del lenguaje natural (NLP) y el Reconocimiento óptico de caracteres (OCR) para extraer entidades personalizadas de los documentos PDF, Word y de texto sin formato utilizando la misma API sin necesidad de preprocesamiento.

La nueva característica de reconocimiento de entidades personalizadas utiliza el contexto estructural del texto (colocación del texto dentro de una página) combinado con el contexto del lenguaje natural para extraer entidades personalizadas de texto denso, listas numeradas y viñetas. Esta combinación también permite a los clientes extraer entidades discontinuas o desconectadas que no forman parte inmediatamente del mismo tramo de texto (por ejemplo, entidades anidadas dentro de una tabla). Esta nueva característica también elimina la necesidad de que los clientes creen una lógica personalizada para convertir los archivos PDF y Word en texto aplanado, sin formato, antes de utilizar Comprehend. Al admitir de forma nativa nuevos formatos de documentos, Comprehend ofrece beneficios clave a los clientes de sectores como el hipotecario, financiero y de aseguradoras, que procesan diversos formatos y diseños de documentos. Por ejemplo, las empresas hipotecarias ahora pueden procesar las solicitudes con mayor rapidez extrayendo la información bancaria, la dirección y el nombre del cofirmante de un solicitante a partir de documentos como los PDF escaneados de extractos bancarios, talones de pago y cartas de verificación de empleo.

Para formar un modelo de reconocimiento de entidades personalizado que pueda utilizarse en documentos PDF, Word y texto sin formato, los clientes deben anotar primero los documentos PDF utilizando una plantilla de anotación personalizada de Amazon SageMaker Ground Truth que proporciona Amazon Comprehend. El modelo de reconocimiento de entidades personalizadas aprovecha tanto el lenguaje natural como la información posicional (por ejemplo, coordenadas) del texto para extraer con precisión las entidades personalizadas que antes podían verse afectadas al aplanar un documento. Para obtener detalles paso a paso sobre cómo anotar sus documentos, consulte Anotación personalizada de documentos para extraer entidades con nombre en documentos utilizando Amazon Comprehend. Una vez que haya terminado de anotar, podrá formar un modelo de reconocimiento de entidades personalizado y utilizarlo para extraer entidades personalizadas de PDF y Word para el procesamiento por lotes (asíncrono). Para extraer el texto y las ubicaciones espaciales del texto de los documentos PDF escaneados, Amazon Comprehend recurre a Amazon Textract por usted como paso previo al reconocimiento de entidades personalizado. Para obtener detalles sobre cómo formar y utilizar su modelo, consulte Extraer entidades personalizadas de documentos en su formato nativo con Amazon Comprehend.

El soporte para el reconocimiento de entidades personalizadas en documentos de texto sin formato, PDF y Word está disponible directamente a través de la consola de AWS y AWS CLI. Para ver la lista de las regiones de AWS en las que se admite tanto Comprehend como Textract, consulte la tabla de regiones de AWS, que contiene información sobre la infraestructura global de AWS.

Para obtener más información y comenzar, visite la página del producto Amazon Comprehend , la página de procesamiento inteligente de documentos o nuestra documentación.