Publicado en: Mar 24, 2022

Amazon Comprehend ya es compatible con documentos en formato de imagen, además de texto, PDF y Word. Ahora los clientes pueden utilizar el reconocimiento de entidades personalizado de Comprehend para extraer entidades de archivos de imagen (JPG, PNG, TIFF) y también pueden utilizar Comprehend directamente en el contenido de salida JSON de Amazon Textract para extraer entidades personalizadas de los documentos. Gracias a este lanzamiento, los clientes pueden simplificar los flujos de trabajo de procesamiento inteligente de documentos (IDP), aprovechando la integración inmediata entre Comprehend y Textract para extraer entidades de los documentos. A continuación encontrará una descripción detallada de estas características:

NER personalizado en archivos de imagen: Amazon Comprehend lanzó previamente la compatibilidad con el reconocimiento de entidades personalizado para documentos PDF y Word ( consulte el anuncio para obtener más detalles). A partir de hoy, los clientes pueden utilizar Comprehend para extraer también la información de documentos en archivos de imagen (JPG, PNG, TIFF), lo que permite seguir respaldando diversos flujos de trabajo de procesamiento de documentos. Esta característica elimina la necesidad de posprocesar el resultado del OCR antes de completar la extracción de entidades con Comprehend. Los clientes primero anotan y forman un modelo de reconocimiento de entidades personalizado en documentos PDF. El modelo de reconocimiento de entidades personalizadas formado aprovecha tanto el lenguaje natural como la información posicional (p. ej., coordenadas) del texto para extraer con precisión entidades personalizadas de PDF, Word, texto plano y, a partir de ahora, formatos de imagen durante la inferencia. Consulte la documentación para obtener más detalles. 

NER personalizado en contenido de salida JSON de Textract: desde hoy, los clientes pueden utilizar el contenido de salida JSON de Textract DetectDocumentText o AnalyzeDocument como contenido de entrada durante la inferencia NER personalizada de Comprehend. Al aprovechar un contenido de salida existente de Textract, los clientes pueden simplificar aún más los flujos de trabajo de procesamiento de documentos (ahorrando tiempo y dinero) y ampliar los flujos de trabajo para extraer entidades personalizadas de un conjunto más amplio de documentos. Consulte la documentación para obtener más detalles.

Para obtener más información y comenzar a utilizar Amazon Comprehend, consulte la página del producto.