Toutes les données extraites sont renvoyées avec les coordonnées de leur cadre de délimitation, un polygone qui englobe chaque élément de données identifié – mot isolé, ligne, tableau ou même cellules individuelles dans un tableau. C'est particulièrement utile pour vérifier d'où vient un mot ou un nombre dans le document source, et pour guider l'utilisateur dans les systèmes de recherche de documents qui renvoient des numérisations de documents originaux comme résultat de la recherche. Par exemple, lors de la recherche d'informations sur l'historique d'un patient dans des dossiers médicaux, les utilisateurs peuvent facilement prendre note du document source en vue de futures recherches.
Reconnaissance optique de caractères
Amazon Textract utilise la reconnaissance optique de caractères (OCR) pour détecter automatiquement le texte imprimé, l'écriture manuscrite et les nombres dans une numérisation ou un rendu d'un document, tel qu'un document juridique ou la numérisation d'un livre.
Analyser les prêts
Analyze Lending API est une API de traitement intelligent des documents, gérée et préconfigurée, qui automatise entièrement l'extraction d'informations à partir des dossiers de prêt. Les clients n'ont qu'à télécharger leurs documents de prêt hypothécaire vers l'API d'Analyze Lending et ses modèles de machine learning préconstruits classeront et diviseront l'ensemble des documents par type.
Extraction de formulaires
Vous pouvez détecter automatiquement les paires clé-valeur dans les images de document et conserver le contexte sans intervention manuelle. Une paire clé-valeur est un ensemble d'éléments de données liés. Par exemple, dans un document, le champ « Prénom » est la clé et « Jane » est la valeur. Il est ainsi facile d'importer les données extraites dans une base de données ou de les fournir comme variable dans une application. Avec les solutions OCR traditionnelles, les clés et les valeurs sont extraites sous forme de texte simple et leur relation est perdue, à moins que des règles codées en dur ne soient écrites et maintenues pour chaque formulaire.
Extraction de tableau
Amazon Textract préserve la composition des données stockées dans les tableaux pendant l'extraction. C'est particulièrement utile pour les documents composés en grande partie de données structurées, comme les rapports financiers ou les dossiers médicaux avec des tableaux en colonnes et en lignes. Vous pouvez charger automatiquement les données extraites dans une base de données en utilisant un schéma prédéfini. Par exemple, les rangées de numéros d'articles et de quantités dans un rapport d'inventaire conserveront leur association, ce qui permet à une application de gestion des stocks d'incrémenter facilement les totaux des articles.
Détection de signature
Amazon Textract offre la possibilité de détecter des signatures sur n'importe quel document ou image. Ainsi, il est facile de détecter automatiquement les signatures sur des documents tels que les chèques, les formulaires de demande de prêt et les formulaires de réclamation. L'emplacement des signatures et les scores de confiance associés sont inclus dans la réponse API.
Extraction basée sur des requêtes
Amazon Textract vous offre la possibilité de spécifier les données que vous devez extraire des documents à l'aide de requêtes. Vous pouvez spécifier les informations dont vous avez besoin sous la forme de questions en langage naturel (par exemple, « Quel est le nom du client ») et recevoir les informations exactes (par exemple, « John Doe ») dans le cadre de la réponse API. Vous n'avez pas besoin de connaître la structure des données dans le document (tableau, formulaire, champ implicite, données imbriquées) ni de vous soucier des variations entre les versions et les formats de documents. Les requêtes Textract sont pré-entraînées sur une grande variété de documents : fiches de paie, relevés bancaires, formulaires W-2, formulaires de demande de prêt, notes hypothécaires, documents de réclamation et cartes d'assurance. La flexibilité offerte par les requêtes Textract réduit la nécessité d'implémenter un post-traitement, de vérifier manuellement les données extraites et d'entraîner des modèles ML.
Reconnaissance de l'écriture manuscrite
De nombreux documents, comme les formulaires d'admission médicale et de candidature, comprennent à la fois du texte manuscrit et imprimé. Amazon Textract peut extraire les deux à partir de documents écrits en anglais avec des scores de confiance élevés, que le texte soit de forme libre ou intégré dans des tableaux. Les documents peuvent également contenir un mélange de texte dactylographié et de texte manuscrit.
Factures et reçus
Les factures et les reçus peuvent présenter une grande variété de mises en page, ce qui rend l'extraction manuelle des données à grande échelle difficile et fastidieuse. Amazon Textract utilise le machine learning (ML) pour comprendre le contexte des factures et des reçus, puis extrait automatiquement les données pertinentes telles que le nom du fournisseur, le numéro de facture, les prix des articles, le montant total et les conditions de paiement.
Pièces d'identité
Amazon Textract utilise le machine learning (ML) pour comprendre le contexte des documents d'identité tels que les passeports et les permis de conduire américains, sans avoir besoin de modèles ou de configuration. Vous pouvez extraire automatiquement des données spécifiques telles que la date d'expiration et la date de naissance, mais aussi identifier et extraire intelligemment des informations implicites telles que le nom et l'adresse. Grâce à Analyze ID, les sociétés fournissant des services de vérification d'identité et les entreprises des secteurs de la finance, de la santé et de l'assurance peuvent facilement automatiser la création de compte, la planification de rendez-vous, la gestion des candidatures, et plus encore, en proposant à leurs clients et interlocuteurs de soumettre une photo ou une numérisation de leur pièce d'identité.
Cadres de délimitation
Toutes les données extraites sont renvoyées avec les coordonnées de leur cadre de délimitation, un polygone qui englobe chaque élément de données identifié – mot isolé, ligne, tableau ou même cellules individuelles dans un tableau. Cela vous aide à contrôler l'origine d'un mot ou d'un nombre dans le document source, et vous guide lorsque les résultats de la recherche renvoient des numérisations de documents originaux. Par exemple, lors de la recherche d'informations sur l'historique d'un patient dans des dossiers médicaux, vous pouvez facilement retrouver le document source et en prendre note en vue de futures recherches.
Seuils de confiance ajustables
Lors de l'extraction d'informations contenues dans les documents, Amazon Textract renvoie une note de confiance pour tout ce qu'il identifie afin que vous puissiez prendre des décisions éclairées sur l'utilisation des résultats. Par exemple, si vous extrayez des informations des dossiers fiscaux et que vous souhaitez garantir une grande précision, vous pouvez signaler tout élément affichant un score de confiance inférieur à 95 % pour qu'il soit examiné par un humain. Vous pouvez définir un seuil inférieur pour d'autres documents où les erreurs auraient moins de conséquences négatives, comme lors du traitement de CV ou de la numérisation d'enregistrements archivés.
Flux de travail de vérification humaine intégré
Amazon Textract s'intègre directement à Amazon Augmented AI (A2I), ce qui vous permet de facilement mettre en place la vérification humaine du texte imprimé et de l'écriture manuscrite extraits à partir des documents. De nombreuses applications d'extraction de texte nécessitent que des humains examinent les prédictions peu fiables pour s'assurer que les résultats sont corrects, mais la création de systèmes de vérification humaine peut être longue et coûteuse. Amazon A2I fournit des flux de travail de vérification humaine intégrés afin que vous puissiez facilement examiner les prédictions. Choisissez un seuil de confiance pour votre application, et toutes les prédictions dont le niveau de confiance est inférieur au seuil sont automatiquement envoyées à des vérificateurs humains pour validation. Vous pouvez également spécifier les paires clé-valeur à envoyer pour vérification humaine, et configurer A2I pour envoyer également des documents sélectionnés au hasard pour contrôle. Utilisez un groupe de vérificateurs de votre propre organisation, ou accédez à une main-d'œuvre de plus de 500 000 sous-traitants indépendants qui effectuent déjà des tâches de ML via Amazon Mechanical Turk. Vous pouvez également faire appel à des fournisseurs de main-d'œuvre présélectionnés par AWS pour garantir la qualité et la conformité aux procédures de sécurité. Pour en savoir plus sur la mise en œuvre de flux de travail de vérification humaine, consultez le site Web d'Amazon A2I et la section Intégration d'Amazon A2I avec Amazon Textract dans le guide du développeur.
Tarification d'Amazon Textract
Amazon Textract est un service de machine learning (ML) qui extrait automatiquement le texte, l'écriture manuscrite et les données des documents numérisés. Il va au-delà de la simple reconnaissance optique de caractères (OCR) pour identifier, comprendre et extraire les données des formulaires et des tableaux. Avec Amazon Textract, vous ne payez que ce que vous utilisez. Il n'y a pas de frais minimums et aucun engagement initial n'est requis. Amazon Textract est facturé uniquement pour les pages traitées, que vous extrayiez du texte seul, du texte avec des tableaux, des données de formulaire, des requêtes ou que vous traitiez des factures et des documents d'identité. Consultez les questions fréquentes pour obtenir des informations supplémentaires sur les pages et l'utilisation acceptable de Textract.

Démarrez avec Amazon Textract sans engagement, ni contrat à long terme.

Commencez à créer avec Amazon Textract dans AWS Management Console.