Toutes les données extraites sont renvoyées avec les coordonnées de leur cadre de délimitation, un polygone qui englobe chaque élément de données identifié – mot isolé, ligne, tableau ou même cellules individuelles dans un tableau. C'est particulièrement utile pour vérifier d'où vient un mot ou un nombre dans le document source, et pour guider l'utilisateur dans les systèmes de recherche de documents qui renvoient des numérisations de documents originaux comme résultat de la recherche. Par exemple, lors de la recherche d'informations sur l'historique d'un patient dans des dossiers médicaux, les utilisateurs peuvent facilement prendre note du document source en vue de futures recherches.

En savoir plus »

Reconnaissance optique de caractères

Amazon Textract utilise la reconnaissance optique de caractères (OCR) pour détecter automatiquement le texte imprimé, l'écriture manuscrite et les nombres dans une numérisation ou un rendu d'un document, tel qu'un document juridique ou la numérisation d'un livre.

En savoir plus »

Extraction de formulaires

Vous pouvez détecter automatiquement les paires clé-valeur dans les images de document et conserver le contexte sans intervention manuelle. Une paire clé-valeur est un ensemble d'éléments de données liés. Par exemple, dans un document, le champ « Prénom » est la clé et « Jane » est la valeur. Il est ainsi facile d'importer les données extraites dans une base de données ou de les fournir comme variable dans une application. Avec les solutions OCR traditionnelles, les clés et les valeurs sont extraites sous forme de texte simple et leur relation est perdue, à moins que des règles codées en dur ne soient écrites et maintenues pour chaque formulaire.

En savoir plus »

Extraction de tableau

Amazon Textract préserve la composition des données stockées dans les tableaux pendant l'extraction. C'est particulièrement utile pour les documents composés en grande partie de données structurées, comme les rapports financiers ou les dossiers médicaux avec des tableaux en colonnes et en lignes. Vous pouvez charger automatiquement les données extraites dans une base de données en utilisant un schéma prédéfini. Par exemple, les rangées de numéros d'articles et de quantités dans un rapport d'inventaire conserveront leur association, ce qui permet à une application de gestion des stocks d'incrémenter facilement les totaux des articles.

En savoir plus »

Extraction basée sur des requêtes

Amazon Textract vous offre la possibilité de spécifier les données que vous devez extraire des documents à l'aide de requêtes. Vous pouvez spécifier les informations dont vous avez besoin sous la forme de questions en langage naturel (par exemple, « Quel est le nom du client ») et recevoir les informations exactes (par exemple, « John Doe ») dans le cadre de la réponse API. Vous n'avez pas besoin de connaître la structure des données dans le document (tableau, formulaire, champ implicite, données imbriquées) ni de vous soucier des variations entre les versions et les formats de documents. Les requêtes Textract sont pré-entraînées sur une grande variété de documents : fiches de paie, relevés bancaires, formulaires W-2, formulaires de demande de prêt, notes hypothécaires, documents de réclamation et cartes d'assurance. La flexibilité offerte par les requêtes Textract réduit la nécessité d'implémenter un post-traitement, de vérifier manuellement les données extraites et d'entraîner des modèles ML.

En savoir plus »

Reconnaissance de l'écriture manuscrite

De nombreux documents, comme les formulaires d'admission médicale et de candidature, comprennent à la fois du texte manuscrit et imprimé. Amazon Textract peut extraire les deux à partir de documents écrits en anglais avec des scores de confiance élevés, que le texte soit de forme libre ou intégré dans des tableaux. Les documents peuvent également contenir un mélange de texte dactylographié et de texte manuscrit.

En savoir plus »

Factures et reçus

Les factures et les reçus peuvent présenter une grande variété de mises en page, ce qui rend l'extraction manuelle des données à grande échelle difficile et fastidieuse. Amazon Textract utilise le machine learning (ML) pour comprendre le contexte des factures et des reçus, puis extrait automatiquement les données pertinentes telles que le nom du fournisseur, le numéro de facture, les prix des articles, le montant total et les conditions de paiement.

En savoir plus »

Pièces d'identité

Amazon Textract utilise le machine learning (ML) pour comprendre le contexte des documents d'identité tels que les passeports et les permis de conduire américains, sans avoir besoin de modèles ou de configuration. Vous pouvez extraire automatiquement des données spécifiques telles que la date d'expiration et la date de naissance, mais aussi identifier et extraire intelligemment des informations implicites telles que le nom et l'adresse. Grâce à Analyze ID, les sociétés fournissant des services de vérification d'identité et les entreprises des secteurs de la finance, de la santé et de l'assurance peuvent facilement automatiser la création de compte, la planification de rendez-vous, la gestion des candidatures, et plus encore, en proposant à leurs clients et interlocuteurs de soumettre une photo ou une numérisation de leur pièce d'identité.

En savoir plus »

Cadres de délimitation

Toutes les données extraites sont renvoyées avec les coordonnées de leur cadre de délimitation, un polygone qui englobe chaque élément de données identifié – mot isolé, ligne, tableau ou même cellules individuelles dans un tableau. Cela vous aide à contrôler l'origine d'un mot ou d'un nombre dans le document source, et vous guide lorsque les résultats de la recherche renvoient des numérisations de documents originaux. Par exemple, lors de la recherche d'informations sur l'historique d'un patient dans des dossiers médicaux, vous pouvez facilement retrouver le document source et en prendre note en vue de futures recherches.

En savoir plus »

Seuils de confiance ajustables

Lors de l'extraction d'informations contenues dans les documents, Amazon Textract renvoie une note de confiance pour tout ce qu'il identifie afin que vous puissiez prendre des décisions éclairées sur l'utilisation des résultats. Par exemple, si vous extrayez des informations des dossiers fiscaux et que vous souhaitez garantir une grande précision, vous pouvez signaler tout élément affichant un score de confiance inférieur à 95 % pour qu'il soit examiné par un humain. Vous pouvez définir un seuil inférieur pour d'autres documents où les erreurs auraient moins de conséquences négatives, comme lors du traitement de CV ou de la numérisation d'enregistrements archivés.

En savoir plus »

Flux de travail de vérification humaine intégré

Amazon Textract s'intègre directement à Amazon Augmented AI (A2I), ce qui vous permet de facilement mettre en place la vérification humaine du texte imprimé et de l'écriture manuscrite extraits à partir des documents. De nombreuses applications d'extraction de texte nécessitent que des humains examinent les prédictions peu fiables pour s'assurer que les résultats sont corrects, mais la création de systèmes de vérification humaine peut être longue et coûteuse. Amazon A2I fournit des flux de travail de vérification humaine intégrés afin que vous puissiez facilement examiner les prédictions. Choisissez un seuil de confiance pour votre application, et toutes les prédictions dont le niveau de confiance est inférieur au seuil sont automatiquement envoyées à des vérificateurs humains pour validation. Vous pouvez également spécifier les paires clé-valeur à envoyer pour vérification humaine, et configurer A2I pour envoyer également des documents sélectionnés au hasard pour contrôle. Utilisez un groupe de vérificateurs de votre propre organisation, ou accédez à une main-d'œuvre de plus de 500 000 sous-traitants indépendants qui effectuent déjà des tâches de ML via Amazon Mechanical Turk. Vous pouvez également faire appel à des fournisseurs de main-d'œuvre présélectionnés par AWS pour garantir la qualité et la conformité aux procédures de sécurité. Pour en savoir plus sur la mise en œuvre de flux de travail de vérification humaine, consultez le site Web d'Amazon A2I et la section Intégration d'Amazon A2I avec Amazon Textract dans le guide du développeur. 

Tarification d'Amazon Textract

Amazon Textract est un service de machine learning (ML) qui extrait automatiquement le texte, l'écriture manuscrite et les données des documents numérisés. Il va au-delà de la simple reconnaissance optique de caractères (OCR) pour identifier, comprendre et extraire les données des formulaires et des tableaux. Avec Amazon Textract, vous ne payez que ce que vous utilisez. Il n'y a pas de frais minimums et aucun engagement initial n'est requis. Amazon Textract est facturé uniquement pour les pages traitées, que vous extrayiez du texte seul, du texte avec des tableaux, des données de formulaire, des requêtes ou que vous traitiez des factures et des documents d'identité. Consultez les questions fréquentes pour obtenir des informations supplémentaires sur les pages et l'utilisation acceptable de Textract.

Tarification d'Amazon Textract
En savoir plus sur la tarification d'Amazon Textract

Démarrez avec Amazon Textract sans engagement, ni contrat à long terme.

En savoir plus 
Créer gratuitement un compte
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite d'AWS. 

S'inscrire 
Commencez à créer dans la console
Commencez à créer dans la console

Commencez à créer avec Amazon Textract dans AWS Management Console.

S'inscrire