Blog de Amazon Web Services (AWS)

Amazon Textract reconoce la escritura a mano y añade cinco nuevos idiomas

Por Andrea Morton-Youmans

 

Los documentos son una herramienta principal para la comunicación, la colaboración, el mantenimiento de registros y las transacciones entre industrias, incluidas las financieras, médicas, legales e inmobiliarias. El formato de los datos puede plantear un desafío adicional en la extracción de datos, especialmente si el contenido está tipeado, escrito a mano o incrustado en un formulario o tabla. Además, la extracción de datos de sus documentos es manual, propensa a errores, consume mucho tiempo, es costoso y no se escala. Amazon Textract es un servicio de aprendizaje automático (ML) que extrae texto impreso y otros datos de documentos, así como tablas y formularios.

Nos complace anunciar dos nuevas características para Amazon Textract: compatibilidad con la escritura a mano en documentos en inglés y la ampliación de la compatibilidad lingüística para extraer texto impreso de documentos escritos en español, portugués, francés, alemán e italiano.

 

Reconocimiento de escritura a mano con Amazon Textract

Muchos documentos, como formularios de admisión médica o solicitudes de empleo, contienen texto manuscrito e impreso. La capacidad de extraer texto y escritura a mano ha sido una necesidad que nuestros clientes nos han pedido. Amazon Textract ahora puede extraer texto impreso y escritura a mano de documentos escritos en inglés con puntuaciones de alta confianza, ya sea texto de formato libre o texto incrustado en tablas y formularios. Los documentos también pueden contener una mezcla de texto escrito o texto manuscrito.

La siguiente imagen muestra un documento de entrada de ejemplo que contiene una mezcla de texto escrito y escrito a mano, y su documento de salida convertido.

 

 

Puede iniciar sesión en la consola Amazon Textract para probar la función de escritura a mano o consultar la nueva demostración de Amazon Machine Learning Hero Mike Chambers.

 

 

No solo puede cargar documentos con texto impreso y escritura a mano, sino que también puede utilizar Amazon Augmented AI (Amazon A2I), lo que facilita la creación de flujos de trabajo para una revisión humana de las predicciones de ML. La adición de Amazon A2I puede ayudarle a llegar al mercado con mayor rapidez, ya que sus empleados o contratistas de AWS Marketplace revisen el resultado de Amazon Textract en busca de cargas de trabajo sensibles. Para obtener más información sobre cómo implementar una revisión humana, consulte Uso de Amazon Textract with Amazon Augmented AI para procesar documentos críticos. Si desea utilizar uno de nuestros socios de AWS, eche un vistazo a cómo Quantiphi utiliza el reconocimiento de escritura a mano para sus clientes.

Además, nos complace anunciar nuestra expansión lingüística. Los clientes ahora pueden extraer y procesar documentos en más idiomas.

 

Nuevos idiomas admitidos en Amazon Textract

Amazon Textract ahora admite el procesamiento de documentos impresos en español, alemán, italiano, francés y portugués. Puede enviar documentos en estos idiomas, incluidos formularios y tablas, para la extracción de datos y texto, y Amazon Textract detecta y extrae automáticamente la información por usted. Simplemente puede cargar los documentos en la consola de Amazon Textract o enviarlos mediante la interfaz de línea de comandos de AWS (CLI de AWS) o los SDK de AWS.

 

Historias de éxito de clientes de AWS

Los clientes de AWS como usted siempre buscan formas de superar el procesamiento de documentos. En esta sección, compartimos lo que nuestros clientes dicen acerca de Amazon Textract.

Intuit

Intuit es un proveedor de soluciones innovadoras de gestión financiera, incluyendo TurboTax y QuickBooks, para aproximadamente 50 millones de clientes en todo el mundo.

«La tecnología de comprensión de documentos de Intuit utiliza IA para eliminar la entrada manual de datos para nuestros clientes finales, pequeñas empresas y autónomos. Para millones de estadounidenses que dependen de TurboTax cada año, esta tecnología simplifica la presentación de impuestos al ahorrarles de la tediosa y lenta tarea de ingresar datos de documentos financieros. Textract es un elemento importante de la capacidad de comprensión de documentos de Intuit, mejorando la exactitud de extracción de datos mediante el análisis del texto en el contexto de formas financieras complejas».

— Krithika Swaminathan, vicepresidente de AI, Intuit

Veeva

Veeva ayuda a las empresas de cosméticos, bienes de consumo y productos químicos a comercializar productos innovadores y de alta calidad más rápido sin comprometer el cumplimiento de normas.

«Nuestros clientes procesan millones de documentos al año y tienen una necesidad crítica de extraer la información almacenada en los documentos para tomar decisiones comerciales significativas. Muchos de nuestros clientes son organizaciones multinacionales, lo que significa que los documentos se envían en varios idiomas como español o portugués. Nuestra reciente asociación con AWS nos permitió acceder anticipadamente a la nueva función de Amazon Textract, que admite idiomas adicionales como el español y el portugués. Esta asociación con Textract ha sido clave para trabajar estrechamente, iterar y ofrecer soluciones excepcionales a nuestros clientes».

— Ali Alemdar, Sr Gerente de Producto, Veeva Industries

Baker Tilly

Baker Tilly es una empresa líder en asesoramiento, impuestos y aseguramiento dedicada a construir relaciones duraderas y ayudar a los clientes con sus problemas más urgentes, y permitirles crear nuevas oportunidades.

«En todas las industrias, los formularios son una de las formas más populares de recopilar datos. Los esfuerzos manuales pueden tardar horas o días en «leer» a través de formularios digitales. Aprovechando la tecnología de reconocimiento óptico de caracteres (OCR) de Amazon Textract, ahora podemos leer estos formularios digitales de forma más rápida y sin esfuerzo. Ahora aprovechamos la escritura a mano como parte de Textract para analizar entidades manuscritas. Esto permite a nuestros clientes cargar formularios con texto escrito y manuscrito y mejorar su capacidad para tomar decisiones clave a través de datos de forma rápida y en un proceso optimizado. Además, Textract se integra fácilmente con Amazon S3 y RDS para acceder instantáneamente a formularios procesados y análisis casi en tiempo real».

-Ollie East — Director de Analítica Avanzada e Ingeniería de Datos

Grupo ARQ

ARQ Group es el proveedor líder end-to-end de soluciones digitales para el mercado corporativo y gubernamental.

«En ARQ Group trabajamos con diferentes compañías de transporte y sus equipos de mantenimiento de activos físicos. Sus procesos se han refinado a lo largo de muchos años. Los intentos anteriores de digitalizar el proceso causaron demasiadas interrupciones y, en consecuencia, no se adoptaron. Textract nos permitió proporcionar una solución híbrida para obtener los beneficios de la información predictiva proveniente de la digitalización de datos de mantenimiento, al tiempo que permitió a nuestros empleados de clientes seguir su proceso escrito a mano preferido. Se espera que esto produzca una reducción del 22% en el tiempo de inactividad y un 18% en los costes de mantenimiento, ya que ahora podemos predecir cuándo es probable que las piezas fallen y programar que el mantenimiento se realice fuera de las horas de producción. También esperamos que la vida útil de nuestros activos de clientes aumente, ahora que estamos evitando escenarios de falla».

— Daniel Johnson, Director de Segmento de Negocios, Grupo ARQ

Belle Fleur

Belle Fleur cree que la revolución ML está alterando la forma en que vivimos, trabajamos y nos relacionamos unos con otros, y transformará la forma en que cada negocio de cada industria opera.

«Utilizamos Amazon Textract para detectar texto para nuestros clientes que tienen los tres Vs cuando se refiere a datos: Variedad, Velocidad y Volumen, y en particular nuestros clientes que tienen diferentes formatos de documento para procesar información y datos de forma adecuada y eficiente. La función diseñada para reconocer los diferentes formatos, ya sean tablas o formularios y ahora con reconocimiento de escritura a mano, es un sueño de IA hecho realidad para nuestros clientes de bienes raíces médicos, legales y comerciales. Estamos muy contentos de desplegar esta nueva función de escritura a mano a todos nuestros clientes para mejorar aún más su solución actual, especialmente aquellos con equipos ajustados. Podemos permitir que el aprendizaje automático pueda manejar el trabajo pesado a través de la automatización para leer miles de documentos en una fracción del tiempo y permitir que sus equipos se centren en tareas de mayor nivel».

— Tia Dubuisson, Presidenta, Belle Fleur

Lumiq

Lumiq es una empresa de análisis de datos que posee el dominio profundo y la experiencia técnica para construir e implementar productos y soluciones impulsados por IA y ML. Sus productos de datos se crean como bloques y se ejecutan en AWS, lo que ayuda a sus clientes a escalar el valor de sus datos e impulsar resultados empresariales tangibles.

«Con miles de documentos generados y recibidos en diferentes etapas del ciclo de vida del contacto del consumidor todos los días, uno de nuestros clientes (un proveedor de servicios de seguros líder en la India) tuvo que invertir varias horas manuales para la entrada de datos, control de calidad de datos y validación. Los conjuntos de documentos consistieron en formularios de propuesta, documentos de apoyo para identidad, informes financieros e informes médicos, entre otros. Estos documentos estaban en formatos diferentes y no estandarizados y algunos de ellos estaban escritos a mano, lo que dio lugar a un retraso medio mayor en la emisión de políticas y repercutió en la experiencia del cliente.

«Aprovechamos el Textract con tecnología de aprendizaje automático de Amazon para extraer información e información de varios tipos de documentos, incluido texto manuscrito. Nuestra solución personalizada creada sobre Amazon Textract y otros servicios de AWS ayudó a lograr una reducción del 97% en la mano de obra humana para la redacción de PII y una reducción prevista del 70% en las horas de trabajo para la entrada de datos. Estamos encantados de profundizar más en Textract para permitir a nuestros clientes un flujo de trabajo E2E sin papel y mejorar su experiencia de consumidor final con importantes ahorros de tiempo».

— Mohammad Shoaib, fundador y CEO, Lumiq (Crisp Analytics)

 

QL Resources

QL es uno de los mayores productores de huevos y fabricantes de surimi de la ASEAN, y está construyendo una presencia en el sector sostenible del aceite de palma con actividades que incluyen molienda, plantaciones y energía limpia de biomasa.

«Tenemos una gran cantidad de documentos manuscritos que se generan diariamente en nuestras fábricas, donde es difícil instalar ubicuamente dispositivos de captura digital. Con la solución personalizada desarrollada por nuestro socio de AWS Axrail con Amazon Textract y varios servicios de AWS, podemos digitalizar documentos para formularios impresos y manuscritos que generamos diariamente en la planta de producción, especialmente en áreas de producción donde las herramientas de captura digital no son disponible o económico. Esta es una solución sensible y completa el eslabón que falta para la digitalización completa de nuestros datos de producción».

— Chia Lik Khai, Directora de Recursos QL

 

Resumen

Continuamente realizamos mejoras en nuestros productos en función de sus comentarios, y le recomendamos que inicie sesión en la consola de Amazon Textract, cargue un documento de muestra y utilice las API disponibles. También puedea hablar con su Account Manager sobre la mejor manera de incorporar estas nuevas funciones. Amazon Textract tiene muchos recursos para ayudarle a empezar, como publicaciones de blog, vídeos, socios y guías de introducción. Consulte la página de recursos de Textract para obtener más información.

Tiene millones de documentos, lo que significa que tiene una tonelada de datos significativos y críticos dentro de esos documentos. Puede extraer y procesar sus datos en segundos en lugar de días, y mantenerlos seguros mediante Amazon Textract. Empieza hoy mismo.

 

 


Sobre la Autor

Andrea Morton-Youmans es gerente de marketing de productos en el equipo de servicios de inteligencia artificial de AWS. Durante los últimos 10 años ha trabajado en las industrias de tecnología y telecomunicaciones, centrándose en la narración de historias de los desarrolladores y campañas de marketing. En su tiempo libre, disfruta yendo al lago con su marido y perro australiano Oakley, degustando vino y disfrutando de una película de vez en cuando.

 

 

 

Revisor

Enrique Rodríguez es Arquitecto de Soluciones de Amazon Web Servicies (AWS) Basado en Chile actualmente ayudando a los clientes de la región a lograr sus desafíos en la nube. Además de eso, es un entusiasta en proyectos de Data Science y AI/ML y el desarrollo de proyectos en la nube. En su tiempo libre disfruta su familia, la música y lectura de ciencia ficción.