Amazon Textract et charges de travail .NET

GUIDE DE PRÉPARATION

Module 1 : Guide de préparation

 MODULE D'APPRENTISSAGE

Présentation

Le badge Amazon Textract et charges de travail .NET atteste de la maîtrise du service Amazon Textract et des charges de travail .NET. Ce guide de préparation explique ce que vous devez savoir pour réussir l'évaluation, sujet par sujet, avec des ressources que vous pouvez consulter. Vous devez également avoir une expérience pratique de l'utilisation du service, soit avec vos propres applications, soit avec un didacticiel AWS.

Une fois que vous vous êtes préparé, accédez au Module 2 pour passer l'examen d'évaluation.

Objectif

Textract est un service de machine learning (ML) qui permet d'extraire automatiquement le texte, l'écriture manuscrite et les données des documents numérisés, tels que des PDF et des images. Il va au-delà de la simple reconnaissance optique de caractères (OCR) pour identifier, comprendre et extraire les données des formulaires et des tableaux. Textract fait appel au machine learning pour lire et traiter tout type de document, extraire avec précision le texte, l'écriture manuscrite, les tableaux et d'autres données sans aucune intervention manuelle.

Vidéo : Qu'est-ce qu'Amazon Textract ?

Avantages

Avec Textract, vous pouvez bénéficier des avantages suivants :

  • Améliorer l'efficacité commerciale et accélérer la prise de décision tout en réduisant les coûts
  • Extraire des informations clés avec une grande précision à partir de pratiquement n'importe quel document
  • Augmenter ou réduire le pipeline de traitement des documents pour une adaptation rapide aux demandes du marché
  • Automatiser le traitement des données en toute sécurité grâce aux normes de confidentialité, de chiffrement et de conformité

Page détaillée du produit Amazon Textract

Capacités

Les fonctionnalités de Textract incluent :

  • Intégration de la détection du texte des documents dans vos applications. Textract supprime la complexité de l'intégration des capacités de détection de texte dans vos applications en rendant disponible une analyse d'image puissante et précise grâce à une simple API.
  • Analyse évolutive des documents : Textract vous permet d'analyser et d'extraire rapidement des données à partir de millions de documents, ce qui peut accélérer la prise de décision.
  • Plusieurs langues prises en charge. Textract prend en charge l'anglais, l'espagnol, l'allemand, l'italien, le français et le portugais.
  • Formats de documents multiples. Textract peut traiter des documents PDF, TIFF, JPEG et PNG.

Guide du développeur – Qu'est-ce qu'Amazon Textract ?

Tarification

Vous devez connaître le modèle tarifaire et l'offre gratuite d'Amazon Textract. Avec Textract, vous ne payez que ce que vous utilisez. Il n'y a pas de frais minimums et aucun engagement initial n'est requis. Textract est facturé uniquement pour les pages traitées, que vous extrayiez du texte seul, du texte avec des tableaux, des données de formulaire, des requêtes ou que vous traitiez des factures et des documents d'identité.

  • Tarifs variables selon l'API. Textract contient 5 API (Detect Document Text, Analyze Document, Analyze Expense, Analyze ID, Analyze Lending), chacune avec des tarifs spécifiques facturés par tranche de 1 000 pages.
  • Les tarifs peuvent varier selon les régions AWS.
  • Vous payez un taux réduit lorsque vous atteignez un seuil mensuel. Une fois que vous atteignez le seuil mensuel d'une API, vous payez un tarif inférieur pour le reste du mois. Par exemple, l'API Detect Document est facturée moins cher après avoir reçu votre premier million de documents dans un mois. Les seuils et les taux sont différents pour chaque API.
  • L'offre gratuite d'AWS dure 3 mois et vous permet d'accéder à un nombre variable de pages gratuites par API. Par exemple, vous bénéficiez de 1 000 pages/mois gratuites pour l'API Detect Document Text et de 100 pages/mois pour l'API Analyze Expense.
  • Vous pouvez utiliser le calculateur de prix AWS de la page de tarification pour estimer vos coûts.

Tarification d'Amazon Textract

Cas d'utilisation

Les cas d'utilisation courants d'Amazon Textract sont les suivants :

  • Création d'un index de recherche intelligent. À l'aide de Textract, vous pouvez créer des bibliothèques avec le texte détecté dans des images et des fichiers PDF.
  • Utilisation de l'extraction de texte intelligente pour le traitement du langage naturel (NLP). Textract vous permet de contrôler la façon dont le texte est regroupé en tant qu'entrée pour les applications NLP. Il peut extraire du texte sous forme de mots et de lignes. Il regroupe également le texte par cellules du tableau si l'analyse du tableau des documents est activée.
  • Accélération de la capture et normalisation des données provenant de différentes sources. Textract permet d'extraire du texte et des données tabulaires à partir d'une grande variété de documents, tels que des documents financiers, des rapports de recherche et des notes médicales.
  • Automatisation de la capture de données à partir de formulaires. Textract permet d'extraire des données structurées à partir de formulaires. Grâce aux API, vous pouvez intégrer des fonctionnalités d'extraction dans les flux de travail existants afin que les données utilisateur soumises par le biais de formulaires puissent être extraites dans un format utilisable.
  • Automatisation de la classification et de l'extraction des documents. Grâce à l'API de traitement des documents Analyze Lending de Textract, vous pouvez automatiser la classification des documents de prêt en différentes catégories de documents, puis acheminer automatiquement les pages classées vers l'opération d'analyse appropriée pour un traitement ultérieur.

Voici quelques exemples de cas d'utilisation de Textract dans l'industrie.

  • Services financiers : Extrayez avec précision des données commerciales importantes telles que les taux de prêt immobilier, les noms des demandeurs et les totaux de factures sur divers types de formulaires financiers afin de traiter les demandes d'emprunt et de prêt immobilier en quelques minutes.
  • Santé et sciences de la vie  : Offrez un service de meilleure qualité à vos patients et aux assureurs en extrayant des données importantes de formulaires de santé, de déclarations de sinistres et de formulaires d'autorisation préalable. Laissez les données dans leur organisation et leur contexte d'origine, et éliminez l'examen manuel des résultats.
  • Secteur public : Extrayez facilement et avec un haut niveau de précision les données importantes de formulaires administratifs tels que prêts aux petites entreprises, formulaires fiscaux et autres demandes.

Guide du développeur – Qu'est-ce qu'Amazon Textract ?

Page détaillée du produit Amazon Textract – Cas d'utilisation

Fonctionnalités

Vous devez comprendre ces fonctionnalités :

Fonctionnement d'Amazon Textract

        1. Reconnaissance optique de caractères. Textract utilise la reconnaissance optique de caractères (OCR) pour détecter automatiquement le texte imprimé, l'écriture manuscrite et les nombres dans une numérisation ou un rendu d'un document, tel qu'un document juridique ou la numérisation d'un livre.

    Guide du développeur – Détection de texte

        2.Analyse des prêts. L'API Analyze Lending de Textract est une API de traitement intelligent des documents, gérée et préconfigurée, qui automatise entièrement l'extraction d'informations à partir des dossiers de prêt. Il vous suffit de charger les documents de prêt hypothécaire vers l'API Analyze Lending et ses modèles de machine learning préconstruits classeront et diviseront l'ensemble des documents par type.

        Guide du développeur – Analyse des prêts

        3. Extraction de formulaires. Vous pouvez détecter automatiquement les paires clé-valeur dans les images de document et conserver le contexte sans intervention manuelle. Une paire clé-valeur est un ensemble d'éléments de données liés. Par exemple, dans un document, le champ « Prénom » est la clé et « Jane » est la valeur. Il est ainsi facile d'importer les données extraites dans une base de données ou de les fournir comme variable dans une application.

        Guide du développeur – Analyse de documents – Extraction de formulaires

        4. Extraction de tableau. Amazon Textract préserve la composition des données stockées dans les tableaux pendant l'extraction. Ceci est particulièrement utile pour les documents composés en grande partie de données structurées, comme les rapports financiers ou les dossiers médicaux avec des tableaux en colonnes et en lignes. Vous pouvez charger automatiquement les données extraites dans une base de données en utilisant un schéma prédéfini. Par exemple, les rangées de numéros d'articles et de quantités dans un rapport d'inventaire conserveront leur association, ce qui permet à une application de gestion des stocks d'incrémenter facilement les totaux des articles.

        Guide du développeur – Tableaux

        5. Détection de signature. Textract offre la possibilité de détecter des signatures sur n'importe quel document ou image. Ainsi, il est facile de détecter automatiquement les signatures sur des documents tels que les chèques, les formulaires de demande de prêt et les formulaires de réclamations. L'emplacement des signatures et les scores de confiance associés sont inclus dans la réponse de l'API.

        Guide du développeur – Analyse de documents – Signatures

        6. Extraction basée sur des requêtes. Textract vous offre la possibilité de spécifier les données que vous devez extraire des documents à l'aide de requêtes. Vous pouvez spécifier les informations dont vous avez besoin sous la forme de questions en langage naturel (par exemple, « Quel est le nom du client ») et recevoir les informations exactes (par exemple, « John Doe ») dans le cadre de la réponse API. Vous n'avez pas besoin de connaître la structure des données dans le document (tableau, formulaire, champ implicite, données imbriquées) ni de vous soucier des variations entre les versions et les formats de documents. Les requêtes Textract sont pré-entraînées sur une grande variété de documents : fiches de paie, relevés bancaires, formulaires W-2, formulaires de demande de prêt, notes hypothécaires, documents de réclamation et cartes d'assurance. La flexibilité offerte par les requêtes Textract réduit la nécessité d'implémenter un post-traitement, de vérifier manuellement les données extraites et d'entraîner des modèles de ML. L'extraction par requête n'est disponible que dans la détection de documents en anglais.

        Guide du développeur – Analyse de documents – Requêtes

        7. Reconnaissance de l'écriture manuscrite : De nombreux documents, comme les formulaires d'admission médicale et de candidature, comprennent à la fois du texte manuscrit et imprimé. Amazon Textract peut extraire les deux à partir de documents écrits en anglais avec des scores de confiance élevés, que le texte soit de forme libre ou intégré dans des tableaux. Les documents peuvent également contenir un mélange de texte dactylographié et de texte manuscrit.

        Guide du développeur – Qu'est-ce qu'Amazon Textract ?

        8. Factures et reçus. Les factures et les reçus peuvent présenter une grande variété de mises en page, ce qui rend l'extraction manuelle des données à grande échelle difficile et fastidieuse. Amazon Textract utilise le machine learning (ML) pour comprendre le contexte des factures et des reçus, puis extrait automatiquement les données pertinentes telles que le nom du fournisseur, le numéro de facture, les prix des articles, le montant total et les conditions de paiement. Lorsque vous soumettez une facture ou un reçu à l'API AnalyzeExpense, celle-ci renvoie une série d'objets ExpenseDocument. Chaque ExpenseDocument est ensuite séparé en LineItemGroups et SummaryFields.

        Guide du développeur – Analyse des factures et des reçus

        Objets de réponse des factures et reçus

        9. Pièces d'identité. Textract utilise le machine learning (ML) pour comprendre le contexte des documents d'identité tels que les passeports et les permis de conduire américains, sans avoir besoin de modèles ou de configuration. Vous pouvez extraire automatiquement des données spécifiques telles que la date d'expiration et la date de naissance, ainsi qu'identifier et extraire intelligemment des informations implicites telles que le nom et l'adresse. Grâce à Analyze ID, les sociétés fournissant des services de vérification d'identité et les entreprises des secteurs de la finance, de la santé et de l'assurance peuvent facilement automatiser la création de compte, la planification de rendez-vous, la gestion des candidatures, et bien plus encore, en proposant à leurs clients et interlocuteurs de soumettre une photo ou une numérisation de leur pièce d'identité.

        Guide du développeur – Analyse des documents d'identité

        10. Flux de travail de vérification humaine intégré. Textract s'intègre directement à Amazon Augmented AI (A2I), ce qui vous permet d’implémenter facilement la vérification humaine du texte imprimé et de l'écriture manuscrite extraits à partir des documents. Choisissez un seuil de confiance pour votre application, et toutes les prédictions dont le niveau de confiance est inférieur à ce seuil sont automatiquement envoyées à des vérificateurs humains pour validation. Vous pouvez également spécifier les paires clé-valeur à envoyer pour vérification humaine, et configurer A2I pour envoyer également des documents sélectionnés au hasard pour contrôle.

        Guide du développeur – Concepts fondamentaux d'Amazon A2I

AWS SDK pour .NET

Utilisez AWS SDK pour .NET pour interagir avec Textract à partir du code .NET. Vous devez connaître les principales classes et méthodes du SDK utilisées pour prendre en charge les fonctionnalités répertoriées ci-dessus dans Fonctionnalités.

  1. Pour utiliser le SDK, ajoutez le package NuGet AWSSDK.Textract à votre projet C#.
  2. Pour travailler avec Textract, instanciez une instance d'AmazonTextractClient et appelez ses méthodes.
  3. Certaines méthodes du SDK, dont les noms se terminent par Async, sont appelées de manière asynchrone avec le mot clé C# await.
  4. Utilisez le modèle SDK standard pour créer des objets de requête à transmettre aux méthodes et traiter les objets de réponse renvoyés. La documentation SDK d'une méthode décrit ses objets de requête et de réponse. Les objets de requête et de réponse ont le même nom racine que la méthode qu'ils prennent en charge. Par exemple, les objets de requête et de réponse de la méthode DetectDocumentTextAsync sont nommés DetectDocumentTextRequest et DetectDocumentTextResponse.
using (var textractClient = new AmazonTextractClient(RegionEndpoint.USEast1))
{
    var bytes = File.ReadAllBytes("example.png");

    Console.WriteLine("Detect Document Text");
    var detectResponse = await textractClient.DetectDocumentTextAsync(new DetectDocumentTextRequest
    {
        Document = new Document
        {
            Bytes = new MemoryStream(bytes)
        }
    });

    foreach (var block in detectResponse.Blocks)
    {
        Console.WriteLine($"Type {block.BlockType}, Text: {block.Text}");
    }
}

Opérations synchrones et asynchrones

Les opérations Textract sont regroupées en types « synchrones » et « asynchrones ». Cela n'a aucun rapport avec les méthodes asynchrones C#.

  1. Les opérations « synchrones » renvoient les résultats en temps quasi réel. Elles permettent de détecter et d'analyser du texte dans des documents d'une seule page.
  2. Les opérations « asynchrones » s'exécutent en arrière-plan. Elles sont destinées au traitement de documents à plusieurs pages. Par exemple, le traitement d'un fichier PDF de plus de 1 000 pages est long, mais le traitement asynchrone du fichier PDF permet à votre application d'effectuer d'autres tâches pendant que l'opération s'exécute. Ces noms de méthodes commencent par le mot « Start », par exemple StartDocumentAnalysis.

Guide du développeur – Traitement de documents avec des opérations synchrones

Guide du développeur – Traitement de documents avec des opérations asynchrones

Lignes et mots de texte

Les opérations d'extraction renvoient le texte détecté dans une liste d'objets Block. Ces objets représentent des lignes de texte ou des mots textuels détectés sur la page d'un document. Une liste d'objets PAGE, LINE. et WORD est renvoyée avec les relations parent-enfant.

Guide du développeur – Lignes et mots de texte

Cadres de délimitation

Les opérations d'extraction renvoient l'emplacement et la géométrie des éléments trouvés sur une page de document. Toutes les données extraites sont renvoyées avec les coordonnées de leur cadre de délimitation, un polygone qui englobe chaque élément de données identifié – mot isolé, ligne, tableau ou même cellules individuelles dans un tableau. Cela vous aide à contrôler l'origine d'un mot ou d'un nombre dans le document source, et vous guide lorsque les résultats de la recherche renvoient des numérisations de documents originaux. Par exemple, lors de la recherche d'informations sur l'historique d'un patient dans des dossiers médicaux, vous pouvez facilement retrouver le document source et en prendre note en vue de futures recherches.

Guide du développeur – Emplacement de l'élément sur la page d'un document

Seuils de confiance ajustables

Lors de l'extraction d'informations contenues dans les documents, Textract renvoie une note de confiance pour tout ce qu'il identifie afin que vous puissiez prendre des décisions éclairées sur l'utilisation des résultats. Par exemple, si vous extrayez des informations des dossiers fiscaux et que vous souhaitez garantir une grande précision, vous pouvez signaler tout élément affichant un score de confiance inférieur à 95 % pour qu'il soit examiné par un humain. Vous pouvez définir un seuil inférieur pour d'autres documents où les erreurs auraient moins de conséquences négatives, comme lors du traitement de CV ou de la numérisation d'enregistrements archivés.

Guide du développeur – Bonnes pratiques pour Amazon Textract – Utilisation des scores de confiance

Gestion des appels limités et des connexions interrompues

 Une opération Textract peut échouer si vous dépassez le nombre maximum de transactions par seconde (TPS), ce qui entraîne une limitation de votre application par le service ou lors d’une interruption de votre connexion. Vous pouvez gérer les connexions limitées et interrompues en retentant automatiquement l'opération. Spécifiez le nombre de nouvelles tentatives en incluant le paramètre Config lorsque vous créez le client Amazon Textract. AWS recommande un nombre de nouvelles tentatives fixé à 5. Le SDK AWS retente une opération le nombre de fois spécifié avant d'échouer et de générer une exception.

Guide du développeur – Gestion des appels limités et des connexions interrompues
Points de terminaison et quotas Amazon Textract

Quotas

Votre utilisation d'Amazon Textract est soumise à des quotas. Il existe deux types de quotas :

  1. Les quotas définis ne peuvent pas être modifiés. Il s'agit notamment des formats de fichier acceptés, des limites de taille de fichier et de nombre de pages, des limites spécifiques aux PDF, de la taille et de la rotation des images, de la taille des caractères, du jeu de caractères et des types de documents d'identité.

             Définition des quotas dans Amazon Textract

  1. Les quotas par défaut peuvent être consultés ou modifiés via la console Service Quotas. Les quotas TPS déterminent la fréquence à laquelle vous pouvez demander à Textract de traiter un nouveau document. La limite de tâches simultanées définit le nombre de tâches pouvant être exécutées en parallèle à un moment donné. 

             Quotas par défaut

Vous pouvez estimer vos besoins en matière de quotas à l'aide du calculateur Service Quotas.

Bonnes pratiques

Vous devez connaître les bonnes pratiques suivantes pour Textract :

  1. Fournir un document d'entrée optimal : une image de haute qualité d'au moins 150 PPP, dans une langue et un format pris en charge par Textract.
  2. Utilisez les scores de confiance. Tenez compte des scores de confiance renvoyés par les opérations de l'API Textract et de la sensibilité de leur cas d'utilisation. Le seuil optimal dépend de l'application. Dans les applications sensibles aux erreurs de détection (faux positifs), appliquez un seuil de score de confiance minimal.
  3. Envisagez de recourir à la vérification humaine. Vous pouvez intégrer la vérification humaine dans vos flux de travail. Cela est particulièrement important pour les applications sensibles, telles que les processus métier impliquant des décisions financières.
    Guide du développeur – Bonnes pratiques pour Amazon Textract

Expérience pratique

Vous devez avoir déjà utilisé Textract pour extraire du texte, de l'écriture manuscrite et des données à partir de documents. Vous pouvez utiliser les didacticiels et les démos ci-dessous si vous n'avez pas d'application avec laquelle travailler.

Didacticiels

Extraire du texte et des données structurées (didacticiel sur la console AWS)

Hello, Textract ! (didacticiel de codage)

Exemples d'applications

Services d'IA AWS

Assistant de synthèse vocale AWS

Vidéos de la communauté

Présentation de Textract et de .NET 6 – EP01 par Tom Moore

Présentation de Textract et de .NET 6 – EP02 par Tom Moore 

 Expérience AWS

Débutant ou intermédiaire

 Expérience .NET

Intermédiaire

 Durée

Jusqu'à 3 heures selon l'expérience antérieure

 Services utilisés

Amazon Textract

 Date de la dernière mise à jour

7 juillet 2022

Cette page vous a-t-elle été utile ?

Modules

Ce didacticiel est divisé en plusieurs modules courts énumérés ci-dessous. Vous pouvez parcourir les modules dans leur intégralité ou les réviser en fonction de votre expérience et de votre état de préparation.

  1. Guide de préparation (3 heures).
  2. Évaluation des compétences : évaluer Amazon Textract et les charges de travail .NET

Évaluation des compétences