Cargas de trabajo de Amazon Textract y .NET

GUÍA DE PREPARACIÓN

Módulo 1: Guía de preparación

 MÓDULO DE APRENDIZAJE

Información general

La insignia de Amazon Textract y cargas de trabajo de .NET demuestra el dominio del servicio Amazon Textract y de las cargas de trabajo de .NET. Esta guía de preparación explica lo que necesita saber para aprobar la evaluación, tema por tema, con recursos que puede revisar. También debe tener experiencia práctica en el uso del servicio, ya sea con sus propias aplicaciones o con un tutorial de AWS.

Una vez que se haya preparado, avance al módulo 2 para realizar el examen de evaluación.

Propósito

Textract es un servicio de machine learning (ML) que extrae automáticamente texto, escritura manuscrita y datos de documentos escaneados como PDF e imágenes. Va más allá del simple reconocimiento óptico de caracteres (OCR) para identificar, comprender y extraer datos de formularios y tablas. Textract utiliza el ML a fin de leer y procesar cualquier tipo de documento, y así extraer con precisión texto, escritura a mano, tablas y otros datos sin esfuerzo manual.

Video: ¿Qué es Amazon Textract?

Beneficios

Con Textract, puede obtener los siguientes beneficios:

  • Impulse una mayor eficiencia empresarial y una toma de decisiones más rápida a la vez que reduce los costos
  • Extraiga información clave con gran precisión desde casi cualquier documento
  • Escale o desescale verticalmente la canalización del procesamiento de documentos para adaptarse de forma rápida a las demandas del mercado
  • Automatice el procesamiento de datos de forma segura con estándares de privacidad, cifrado y conformidad de datos

Página de detalles del producto Amazon Textract

Capacidades

Las capacidades de Textract incluyen:

  • Integración de la detección de texto de documentos en sus aplicaciones. Textract elimina la complejidad de crear capacidades de reconocimiento de texto en sus aplicaciones al realizar un análisis potente y preciso a disposición de todos con una sencilla API.
  • Análisis de documentos escalable: Textract le permite analizar y extraer datos rápidamente de millones de documentos, lo que puede acelerar la toma de decisiones.
  • Varios idiomas. Textract admite inglés, español, alemán, italiano, francés y portugués.
  • Múltiples formatos de documentos. Textract puede procesar documentos PDF, TIFF, JPEG y PNG.

Guía para desarrolladores - ¿Qué es Amazon Textract?

Precios

Debe estar familiarizado con el modelo de precios y el nivel gratuito de Amazon Textract. Con Textract, paga únicamente por lo que usa. No se requieren pagos mínimos ni compromisos iniciales. Textract solo cobra las páginas procesadas, independientemente de que extraiga texto, texto con tablas, datos de formularios, consultas, o procese facturas y documentos de identidad.

  • Tarifas variables según la API. Textract contiene 5 API (detectar el texto del documento, analizar el documento, analizar los gastos, analizar la identidad y analizar los préstamos), cada una con tarifas específicas que se cobran por cada 1000 páginas.
  • Las tarifas pueden variar entre las regiones de AWS.
  • Usted paga una tasa reducida después de alcanzar un límite mensual. Una vez que alcance el límite mensual de una API, pagará una tarifa más baja durante el resto del mes. Por ejemplo, la API Detect Document se cobra menos después del primer millón de documentos en un mes. Los umbrales y las tasas son diferentes para cada API.
  • El nivel gratuito de AWS dura 3 meses y ofrece un número variable de páginas gratuitas por API. Por ejemplo, obtiene 1000 páginas al mes gratis para la API Detect Document Text y 100 páginas al mes para la API Analyze Expense.
  • Puede utilizar la calculadora de precios de AWS de la página de precios para calcular sus costos.

Precios de Amazon Textract

Casos de uso

Los siguientes son casos de uso habituales para utilizar Amazon Textract:

  • Creación de un índice de búsqueda inteligente. Con Textract puedes crear bibliotecas de texto detectadas en archivos de imagen y PDF.
  • Uso de la extracción de texto inteligente para el procesamiento de lenguaje natural (NLP). Textract le permite controlar cómo se agrupa el texto como entrada para las aplicaciones de PNL. Puede extraer texto en forma de palabras y líneas. También agrupa el texto por celdas de tabla si está habilitado el análisis de tablas de documentos.
  • Acelerar la captura y normalización de datos de diferentes fuentes. Textract permite la extracción de datos textuales y tabulares de una amplia variedad de documentos, como documentos financieros, informes de investigación y notas médicas.
  • Automatizar la captura de datos de los formularios. Textract permite extraer datos estructurados de los formularios. Con las API, puede incorporar capacidades de extracción en los flujos de trabajo empresariales existentes para que los datos de usuario enviados a través de formularios se puedan extraer en un formato utilizable.
  • Automatizar la clasificación y extracción de documentos. Con la API de procesamiento de documentos Analyze Lending de Textract, puede automatizar la clasificación de los documentos de préstamo en varias clases de documentos y, a continuación, enrutar automáticamente las páginas clasificadas a la operación de análisis correcta para su posterior procesamiento.

Los casos de uso de Textract en la industria incluyen los siguientes.

  • Servicios financieros: extraiga con precisión datos empresariales críticos, como las tasas de interés hipotecarios, los nombres de los solicitantes y los totales de las facturas, en una variedad de formularios financieros para procesar las solicitudes de préstamos e hipotecas en cuestión de minutos.
  • Salud y ciencias de la vida :preste un mejor servicio a sus pacientes y aseguradoras mediante la extracción de datos importantes del paciente de los formularios de admisión sanitaria, los reclamos de seguros y los formularios de autorización previa. Mantenga los datos organizados y en su contexto original, y elimine la revisión manual de los resultados.
  • Sector público: extraiga con facilidad y un alto grado de precisión los datos relevantes de los formularios relacionados con el Gobierno, como los préstamos para pequeñas empresas, los formularios de impuestos federales y las solicitudes de empresas.

Guía para desarrolladores - ¿Qué es Amazon Textract?

Página de detalles del producto Amazon Textract: casos de uso

Características

Debe entender estas características:

Cómo funciona Amazon Textract

        1. Reconocimiento óptico de caracteres. Textract utiliza la tecnología de reconocimiento óptico de caracteres (OCR) para detectar automáticamente texto impreso, escritura manuscrita y números en un escaneo o representación de un documento, como un documento legal o el escaneo de un libro.

    Guía para desarrolladores - Detección de texto

        2.Analizar los préstamos. La característica de análisis de préstamos de Textract es una API de procesamiento inteligente de documentos preconfigurada y administrada que automatiza por completo la extracción de información de los paquetes de préstamos. Solo tiene que cargar los documentos de los préstamos hipotecarios en la API de análisis de préstamos y sus modelos de machine learning prediseñados clasificarán y dividirán el paquete de documentos por tipo de documento.

        Guía para desarrolladores - Análisis de préstamos

        3. Extracción de formularios. Es posible detectar automáticamente los pares clave-valor en las imágenes de los documentos y conservar el contexto sin intervención manual. Un par clave-valor es un conjunto de datos vinculados. Por ejemplo, en un documento, el campo “Nombre” es la clave y “María” es el valor. Esto facilita la importación de los datos extraídos a una base de datos o su inclusión como variable en una aplicación.

        Guía para desarrolladores - Análisis de documentos - Extracción de formularios

        4. Extracción de tablas. Textract conserva la composición de los datos almacenados en las tablas durante la extracción. Esto es útil para los documentos que se componen en gran medida de datos estructurados, como los informes financieros o las historias clínicas con tablas en columnas y filas. Puede cargar los datos extraídos en una base de datos mediante un esquema predefinido. Por ejemplo, las filas de números y cantidades de elementos en un informe de inventario retendrán su asociación para incrementar fácilmente los totales de elementos en una aplicación de administración de inventarios.

        Guía para desarrolladores - Tablas

        5. Detección de firmas. Textract proporciona la posibilidad de detectar firmas en cualquier documento o imagen. Esto facilita la detección automática de firmas en documentos como cheques, formularios de solicitud de préstamos y formularios de reclamos. La ubicación de las firmas y las puntuaciones de confianza asociadas están incluidas en la respuesta de la API

        Guía para desarrolladores - Análisis de documentos - Firmas

        6. Extracción basada en consultas. Textract brinda la flexibilidad de especificar los datos que necesita extraer de los documentos utilizando consultas. Puede especificar la información que necesita en forma de preguntas en lenguaje natural (por ejemplo, “¿Cuál es el nombre del cliente?”) y recibir la información exacta (por ejemplo, “Juan Pérez”) como parte de la respuesta de la API. No es necesario conocer la estructura de datos del documento (tabla, formulario, campo implícito, datos anidados) ni preocuparse por las variaciones entre versiones y formatos del documento. Las consultas de Textract se han entrenado previamente en una gran variedad de documentos, como comprobantes de pago, extractos bancarios, formularios W-2, formularios de solicitud de préstamo, pagarés hipotecarios, documentos de reclamaciones y tarjetas de seguros. La flexibilidad que proporcionan las consultas de Textract reduce la necesidad de implementar el posprocesamiento, la dependencia en revisiones manuales de los datos extraídos o la necesidad de entrenar modelos de ML. La extracción de consultas solo está disponible en la detección de documentos en inglés.

        Guía para desarrolladores - Análisis de documentos - Consultas

        7. Reconocimiento de escritura a mano: muchos documentos, como los formularios de admisión médica y las solicitudes de empleo, incluyen tanto texto manuscrito como impreso. Amazon Textract puede extraer ambos tipos a partir de documentos escritos en inglés con altas puntuaciones de confianza, tanto si el texto es de formato libre como si está incrustado en tablas. Los documentos también pueden contener una mezcla de texto mecanografiado y manuscrito.

        Guía para desarrolladores - ¿Qué es Amazon Textract?

        8. Facturas y recibos. Las facturas y los recibos pueden tener una gran variedad de diseños, lo que dificulta y hace más larga la extracción manual de datos a escala. Amazon Textract utiliza el machine learning (ML) para comprender el contexto de las facturas y los recibos y extrae automáticamente datos relevantes, como el nombre del proveedor, el número de la factura, el precio de los artículos, el importe total y las condiciones de pago. Al enviar una factura o un recibo a la API AnalyzeExpense, devuelve una serie de objetos ExpenseDocument. Cada ExpenseDocument se divide aún más en LineItemGroups y SummaryFields.

        Guía para desarrolladores - Análisis de facturas y recibos

        Objetos de respuesta a facturas y recibos

        9. Documentos de identidad. Textract utiliza el machine learning (ML) para comprender el contexto de los documentos de identidad, como los pasaportes y los permisos de conducir de Estados Unidos, sin necesidad de plantillas ni de configuración. Es posible extraer automáticamente información específica, como la fecha de vencimiento y la fecha de nacimiento, así como identificar y extraer de forma inteligente información implícita, como el nombre y la dirección. Con el análisis de documentos de identidad, las empresas que prestan servicios de verificación de la identidad y las que operan en los sectores de las finanzas, la salud y los seguros pueden automatizar fácilmente la creación de cuentas, la programación de citas, las solicitudes de empleo, etc., al permitir que los clientes presenten una fotografía o un escaneado del documento de identidad.

        Guía para desarrolladores - Análisis de documentos de identidad

        10. Flujo de trabajo de revisión humana incorporado. Textract se integra directamente con Amazon Augmented AI (A2I) de modo que sea fácil implementar la revisión humana del texto impreso y manuscrito extraído de los documentos. Elija un umbral de confianza para la aplicación, para que todas las predicciones con una confianza inferior al umbral se envíen automáticamente a los revisores humanos para su validación. También puede especificar qué pares clave-valor se deben enviar para la revisión humana y configurar A2I para que envíe también documentos seleccionados al azar para su revisión.

        Guía para desarrolladores - Conceptos básicos de Amazon A2I

AWS SDK para .NET

Utilice el AWS SDK para .NET para interactuar con Textract desde el código .NET. Debe conocer las clases y los métodos principales del SDK que se utilizan para respaldar las capacidades enumeradas anteriormente en Características.

  1. Para usar el SDK, agrega el paquete AWSSDK.TExtract NuGet a su proyecto de C#.
  2. Para trabajar con Textract, cree una instancia de AmazontExtractClient y llame a sus métodos.
  3. Algunos métodos del SDK, cuyos nombres terminan en Async, se llaman de forma asíncrona con la palabra clave await de C#.
  4. Use el patrón estándar del SDK para crear objetos de solicitud para pasarlos a los métodos y procesar los objetos de respuesta devueltos. La documentación del SDK de un método describe sus objetos de solicitud y respuesta. Los objetos de solicitud y respuesta tienen el mismo nombre raíz que el método que admiten. Por ejemplo, los objetos de solicitud y respuesta del método DetectDocumentTextSync se denominan DetectDocumentTextRequest y DetectDocumentTextResponse.
using (var textractClient = new AmazonTextractClient(RegionEndpoint.USEast1))
{
    var bytes = File.ReadAllBytes("example.png");

    Console.WriteLine("Detect Document Text");
    var detectResponse = await textractClient.DetectDocumentTextAsync(new DetectDocumentTextRequest
    {
        Document = new Document
        {
            Bytes = new MemoryStream(bytes)
        }
    });

    foreach (var block in detectResponse.Blocks)
    {
        Console.WriteLine($"Type {block.BlockType}, Text: {block.Text}");
    }
}

Operaciones sincrónicas y asincrónicas

Las operaciones de Textract se agrupan en tipos "sincrónicos" y "asincrónicos". Esto no tiene relación con los métodos asíncronos de C#.

  1. Las operaciones «sincrónicas» devuelven los resultados casi en tiempo real. Sirven para detectar y analizar texto en documentos de una sola página.
  2. Las operaciones "asincrónicas" se ejecutan en segundo plano. Son para el procesamiento de documentos de varias páginas. Por ejemplo, un archivo PDF con más de 1000 páginas tarda mucho tiempo en procesarse, pero procesar el archivo PDF de forma asíncrona permite que la aplicación complete otras tareas mientras se completa la operación. Los nombres de estos métodos comienzan con la palabra "Start", como StartDocumentAnalysis.

Guía para desarrolladores - Procesamiento de documentos con operaciones sincrónicas

Guía para desarrolladores - Procesamiento de documentos con operaciones asincrónicas

Líneas y palabras del texto

Las operaciones de Textract devuelven el texto detectado en una lista de objetos Block. Estos objetos representan líneas de texto o palabras textuales que se detectan en una página de documento. Se devuelve una lista de objetos PAGE, LINE. y WORD con relaciones padre-hijo.

Guía para desarrolladores - Líneas y palabras de texto

Cuadros delimitadores

Las operaciones de Textract devuelven la ubicación y la geometría de los elementos que se encuentran en la página de un documento. Todos los datos extraídos se devuelven con coordenadas del cuadro delimitador, es decir, marcos poligonales que abarcan cada dato identificado, como una palabra, una línea, una tabla o celdas individuales dentro de una tabla. Esto ayuda a comprobar de dónde procede una palabra o un número en el documento original y sirve de guía cuando los resultados de búsqueda proveen escaneos de los documentos originales. Por ejemplo, al buscar en los registros médicos los detalles del historial del paciente, puede encontrar fácilmente el documento de origen y tomar nota para futuras búsquedas.

Guía para desarrolladores - Ubicación del elemento en una página de un documento

Umbrales de confianza ajustables

Al extraer información a partir de los documentos, Textract arroja una puntuación de confianza para todo lo que identifica, de modo que sea posible tomar decisiones fundamentadas sobre el uso de los resultados. Por ejemplo, si se extrae información de los registros fiscales y se desea garantizar una alta precisión, cualquier elemento con una puntuación de confianza inferior al 95% se puede marcar para que lo revise un humano. Puede establecer un umbral más bajo para otros documentos en los que los errores tendrían menos consecuencias negativas, como cuando se procesan currículos o se digitalizan registros archivados.

Guía para desarrolladores - Prácticas recomendadas para Amazon Textract - Utilice puntuaciones de confianza

Gestión de llamadas limitadas y conexiones interrumpidas

 Una operación de Textract puede fallar si se supera el número máximo de transacciones por segundo (TPS), lo que provoca que el servicio limite la aplicación o cuando se interrumpe la conexión. Puede gestionar la limitación y la interrupción de las conexiones reintentando la operación de forma automática. Especifique el número de reintentos incluyendo el parámetro de configuración al crear el cliente Amazon Textract. AWS recomienda 5 reintentos. El SDK de AWS vuelve a intentar una operación el número de veces especificado antes de fallar y generar una excepción.

Guía para desarrolladores - Gestión de llamadas limitadas y conexiones interrumpidas
Puntos de conexión y cuotas de Amazon Textract

Cuotas

El uso de Amazon Textract está sujeto a cuotas. Hay dos tipos de cuotas:

  1. Las cuotas establecidas no se pueden cambiar. Estas incluyen los formatos de archivo aceptados, los límites de tamaño de archivo y recuento de páginas, los límites específicos de PDF, el tamaño y la rotación de las imágenes, el tamaño de los caracteres, el conjunto de caracteres y los tipos de ID.

             Establezca cuotas en Amazon Textract

  1. Las cuotas predeterminadas se pueden ver o cambiar a través de la consola Service Quotas. Las cuotas de TPS determinan la frecuencia con la que puede solicitar que Textract procese un documento nuevo. El límite de trabajos simultáneos define cuántos trabajos se pueden ejecutar en paralelo en un momento dado. 

             Cuotas predeterminadas

Puede calcular sus necesidades de cuotas con la calculadora de cuotas de servicio.

Prácticas recomendadas

Debería estar familiarizado con las siguientes prácticas recomendadas para Textract:

  1. Proporcionar un documento de entrada óptimo: una imagen de alta calidad de al menos 150 DPI, en un idioma y formato compatibles con Textract.
  2. Puntuaciones de confianza. Tener en cuenta las puntuaciones de confianza devueltas por las operaciones de la API de Textract y la sensibilidad de sus casos de uso. El umbral óptimo depende de la aplicación. En las aplicaciones sensibles a los errores de detección (falsos positivos), aplique un umbral de puntuación de confianza mínimo.
  3. Considere la posibilidad de utilizar la revisión humana. Puede incorporar la revisión humana en sus flujos de trabajo. Esto es especialmente importante para las aplicaciones sensibles, como los procesos empresariales que implican decisiones financieras.
    Guía para desarrolladores - Prácticas recomendadas para Amazon Textract

Experiencia de primera mano

Debe tener experiencia en el uso de Textract para extraer texto, escritura a mano y datos de documentos. Puede usar los tutoriales y demostraciones que aparecen a continuación si no tiene una aplicación con la que trabajar.

Tutoriales

Extraer texto y datos estructurados (tutorial de la consola de AWS)

¡Hola, Textract! (tutorial de codificación)

Aplicaciones de muestra

Servicios de IA de AWS

Asistente de conversión de texto a voz de AWS

Vídeos de la comunidad

Introducción a Textract y .NET 6 - EP01 de Tom Moore

Introducción a Textract y .NET 6 - EP02 de Tom Moore 

 Experiencia en AWS

Principiante o intermedio

 Experiencia .NET

Intermedio

 Tiempo de realización

Hasta 3 horas según la experiencia previa

 Servicios utilizados

Amazon Textract

 Última actualización

7 de julio de 2022

¿Le resultó útil esta página?

Módulos

Este tutorial se divide en los siguientes módulos. Puede revisar los módulos en profundidad o rápidamente según su experiencia y preparación.

  1. Guía de preparación (3 horas).
  2. Evaluación de habilidades: evalúe las cargas de trabajo de Amazon Textract y .NET

Evaluación de habilidades