Questions d'ordre général
Q : Qu'est-ce qu'Amazon Textract ?
Amazon Textract est un service d'analyse de documents qui détecte et extrait le texte imprimé, l'écriture manuscrite, les données structurées (telles que les champs d'intérêt et leurs valeurs) et les tableaux à partir d'images et de numérisations de documents. Les modèles de machine learning d'Amazon Textract ont été entraînés sur des millions de documents afin que tous les types de documents, ou presque, que vous importez soient automatiquement reconnus et traités pour l'extraction de texte. Lorsque des informations sont extraites des documents, le service renvoie une note de confiance pour chaque élément qu'il identifie afin que vous puissiez prendre des décisions éclairées sur la manière dont vous souhaitez utiliser les résultats. Par exemple, si vous extrayez des informations de documents fiscaux, vous pouvez définir des règles personnalisées pour signaler toute information extraite avec un score de confiance inférieur à 95 %. De plus, toutes les données extraites sont renvoyées avec les coordonnées de leur cadre de délimitation, un rectangle qui englobe entièrement chaque élément de données identifié pour vous permettre de retrouver rapidement l'endroit où un mot ou un nombre apparaît sur un document. Vous pouvez accéder à ces fonctionnalités avec l'API Amazon Textract, dans la Console de gestion AWS ou à l'aide de l'interface de la ligne de commande (CLI) AWS.
Q : Quels sont les cas d'utilisation les plus courants d'Amazon Textract ?
Amazon Textract est majoritairement utilisé dans les scénarios suivants :
- Importation de documents et de formulaires dans des applications métier
- Création d'index de recherche intelligents
- Création de flux de travail de traitement de documents automatisés
- Maintien de la conformité dans les archives de documents
- Extraction de texte pour le traitement du langage naturel (NLP)
- Extraction de texte pour la classification de documents
Q : Quel type de texte Amazon Textract peut-il détecter et extraire ?
Amazon Textract peut détecter le texte imprimé et l'écriture manuscrite à partir de l'alphabet anglais standard et des symboles ASCII. Amazon Textract peut extraire du texte imprimé, des formulaires et des tableaux en anglais, en allemand, en français, en espagnol, en italien et en portugais. Amazon Textract extrait également des données étiquetées explicitement, des données implicites et des lignes à partir d'une liste détaillée de biens ou de services dans la quasi-totalité des factures ou reçus en anglais, sans aucun modèle ni configuration. Amazon Textract peut également extraire des données spécifiques ou implicites telles que des noms et des adresses à partir de documents d'identité en anglais (par exemple, les passeports et permis de conduire américains) sans avoir besoin de modèles ou de configuration. Enfin, Amazon Textract peut extraire des données spécifiques de documents sans se soucier de la structure des données ou des variations de présentation dans le document à l'aide de requêtes en anglais.
Q : Quels formats de document sont pris en charge par Amazon Textract ?
Amazon Textract prend actuellement en charge les formats PNG, JPEG, TIFF et PDF. Pour les API synchrones, vous pouvez soumettre des images en tant qu'objets S3 ou en tant que tableau d'octets. Pour les API asynchrones, vous pouvez envoyer des objets S3. Si votre document est déjà dans l'un des formats de fichier pris en charge par Amazon Textract (PDF, TIFF, JPG, PNG), ne le convertissez pas et ne le sous-échantillonnez pas avant de l'importer dans Amazon Textract.
Q : Comment démarrer avec Amazon Textract ?
Pour démarrer avec Amazon Textract, vous pouvez cliquer sur le bouton « Démarrer avec Amazon Textract » sur la page Amazon Textract. Vous devez disposer d'un compte Amazon Web Services. Si vous n'en avez pas, vous serez invité à en créer un dans le cadre de la procédure. Une fois que vous êtes connecté à votre compte AWS, essayez Amazon Textract avec vos propres images ou documents PDF en utilisant la Console de gestion Amazon Textract. Vous pouvez également télécharger les SDK Amazon Textract pour commencer à créer vos propres applications. Consultez notre guide de démarrage par étapes pour obtenir davantage d'informations.
Q : Quelles API sont proposées par Amazon Textract ?
Amazon Textract propose des API qui détectent et extraient le texte imprimé et l'écriture manuscrite à partir d'images numérisées de documents, récupèrent des données structurées telles que des tableaux et effectuent un appariement clé-valeur sur le texte extrait. Le service propose également des API distinctes axées sur l'extraction de données à partir de factures, de reçus et de documents d'identité.
Amazon Textract effectue l'OCR à l'aide de l'API Detect Document Text, mais va plus loin dans le processus d'analyse des documents : le service détecte en effet les paires clé-valeur afin que les extractions de texte restent organisées dans leur structure d'origine. L'API Analyze Document peut détecter le texte imprimé, l'écriture manuscrite, les champs, les valeurs, leurs relations, les tableaux et d'autres entités figurant dans un document, ainsi que les scores de confiance associés. Avec l'API Analyze Document, les développeurs peuvent capturer automatiquement des données structurées à partir d'une grande variété de documents, comme les formulaires fiscaux, les rapports financiers, les dossiers médicaux et les demandes de prêt. L'API Analyze Document offre également aux développeurs la possibilité de spécifier les données dont ils ont besoin pour extraire des documents à l'aide de requêtes sans se préoccuper de la structure des données ou des variations dans l'agencement des données selon les versions des documents. L'API Analyze Expense peut retrouver le nom du fournisseur sur un reçu même s'il n'est indiqué que dans un logo sur la page, sans une étiquette « fournisseur » explicite. Elle peut également rechercher et extraire des articles, des quantités et des prix sur des lignes dépourvues d'en-têtes de colonne. Avec l'API Analyze Expense, les développeurs peuvent utiliser des noms de clé et des en-têtes de colonne normalisés lors de l'extraction des données de factures et de reçus, afin que les applications en aval puissent facilement comparer la sortie de nombreux documents. L'API Analyze ID comprend le contexte des documents d'identité tels que les passeports et les permis de conduire américains, sans avoir besoin de modèles ou de configuration. Grâce à Analyze ID, les sociétés fournissant des services de vérification d'identité et les entreprises des secteurs de la finance, de la santé et de l'assurance peuvent facilement automatiser la création de compte, la planification de rendez-vous, la gestion des candidatures, et plus encore, en proposant à leurs clients et interlocuteurs de soumettre une photo ou une numérisation de leur pièce d'identité. Pour en savoir plus, consultez la référence API d'Amazon Textract.
Q : Quelles sont les fonctionnalités de l'API Analyze Document ?
L'API Analyze Document a trois fonctionnalités : Formulaires, Tableaux et Requêtes. Vous pouvez utiliser ces fonctionnalités de façon indépendante ou les combiner librement. Utilisez Formulaires pour extraire des données telles que des paires clé-valeur (« Prénom » et la valeur associée : « Jane Smith »). Utilisez Tableaux pour extraire les données tabulaires organisées en colonnes et en lignes. Utilisez Requêtes pour spécifier les informations que vous voulez extraire d'un document sous la forme de questions en langage naturel (par exemple, « Quel est le nom du client ? ») et recevoir la réponse (par exemple, « Jane Doe ») dans le résultat.
Q : Comment les clients doivent-ils construire/créer/formuler les requêtes ?
Nous avons publié des conseils détaillés sur les bonnes pratiques relatives à la création de requêtes dans le cadre de notre Documentation API sur la page Ressources textuelles. En général, les clients doivent essayer de poser une question en langage naturel en utilisant des termes du document.
Q : Y a-t-il des limites au nombre de requêtes que je peux faire par document ?
Les requêtes sont traitées page par page et les informations peuvent être extraites à l'aide de requêtes via des opérations synchrones ou asynchrones. Pour les opérations synchrones, un maximum de 15 requêtes par page est pris en charge. Pour les opérations asynchrones, un maximum de 30 requêtes par page est pris en charge.
Q : Comment faire pour obtenir des résultats optimaux d'Amazon Textract ?
Amazon Textract utilise le machine learning pour lire tout type de document, ou presque, afin d'extraire du texte imprimé, de l'écriture manuscrite et des informations structurées. Gardez les conseils suivants à l'esprit afin d'obtenir les meilleurs résultats :
- Assurez-vous que votre document utilise une langue prise en charge par Amazon Textract (actuellement l'anglais, l'espagnol, l'italien, le portugais, le français et l'allemand ; l'écriture manuscrite, les factures et reçus, les documents d'identité et le traitement des requêtes sont en anglais uniquement).
- Fournissez une image de la plus haute qualité possible, idéalement au moins 150 dpi.
- Si votre document est déjà dans l'un des formats de fichier pris en charge par Amazon Textract (PDF, JPG, PNG), ne le convertissez pas et ne le sous-échantillonnez pas avant de l'importer dans Amazon Textract.
- La fonctionnalité Tableau d'Amazon Textract fonctionne mieux lorsque les tableaux de votre document sont visuellement séparés des éléments environnants sur la page (quand ils ne sont pas superposés à une image ou un motif complexe, par exemple), et que le texte dans le tableau est droit (qu'il n'est pas pivoté par rapport à un autre texte sur la page).
Vous pouvez commencer à analyser vos propres documents avec Amazon Textract en quelques clics seulement dans la Console de gestion Amazon Textract. Si vous avez des difficultés à obtenir un haut niveau de précision avec les reçus, les pièces d'identité ou les dessins industriels, contactez-nous à l'adresse amazon-textract@amazon.com pour obtenir de l'aide.
Q : Comment utiliser le score de confiance fourni par Amazon Textract ?
Un score de confiance est un chiffre compris entre 0 et 100 qui indique la probabilité d'exactitude d'une prévision donnée. Avec Amazon Textract, tous les éléments de textes imprimés, d'écriture manuscrite et de données structurées extraits sont renvoyés avec les coordonnées de leur cadre de délimitation, un rectangle qui englobe entièrement chaque élément identifié. Vous avez ainsi connaissance du score de chaque entité extraite et vous pouvez prendre des décisions éclairées sur la manière dont vous souhaitez utiliser les résultats.
Q : Comment obtenir des prédictions Amazon Textract vérifiées par des êtres humains ?
Amazon Textract est directement intégré à Amazon Augmented AI (A2I) afin que vous puissiez facilement faire examiner des prévisions à faible confiance d'Amazon Textract par des humains. À l'aide de l'API d'Amazon Textract pour l'extraction de données de formulaire et de la console Amazon A2I, vous pouvez spécifier les conditions selon lesquelles les prédictions sont acheminées à des vérificateurs. Ces conditions peuvent être un seuil de confiance ou un pourcentage d'échantillonnage aléatoire. Si vous spécifiez un seuil de confiance, Amazon A2I achemine uniquement les prédictions qui se situent sous le seuil aux fins de la vérification humaine. Vous pouvez ajuster ces seuils à tout moment pour trouver le juste équilibre entre précision et rentabilité. Par ailleurs, si vous spécifiez un pourcentage d'échantillonnage, Amazon A2I achemine un échantillon aléatoire des prédictions aux fins de la vérification humaine. Cela vous permet de mettre en place des audits pour contrôler régulièrement la précision de la prédiction. Amazon A2I fournit également aux vérificateurs une interface Web comprenant toutes les instructions et tous les outils nécessaires à leurs tâches de vérification. Pour plus d'informations concernant la mise en place d'une vérification humaine avec Amazon Textract, consultez le site Web Amazon A2I.
Q : Dans quelles régions AWS Amazon Textract est-il disponible ?
Amazon Textract est actuellement disponible dans les régions AWS suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), USA Ouest (Californie du Nord), AWS GovCloud (US, côte ouest), AWS GovCloud (US, côte est), Canada (Centre), UE (Irlande), UE (Londres), UE (Francfort), UE (Paris), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Séoul) et Asie-Pacifique (Mumbai).
Q : Est-ce qu'Amazon Textract fonctionne avec AWS CloudTrail ?
Oui. Amazon Textract prend en charge la journalisation des actions suivantes sous la forme d'événements CloudTrail : DetectDocumentText, AnalyzeDocument, StartDocumentTextDetection, StartDocumentAnalysis, GetDocumentTextDetection et GetDocumentAnalysis. Pour plus d'informations, consultez Journalisation des appels d'API Amazon Textract avec AWS CloudTrail.
Facturation
Q : Comment Amazon Textract compte le nombre de pages traitées ?
Une image (PNG, TIFF ou JPEG) compte pour une seule page. Dans le cas des PDF, chaque page du document est comptée comme une page traitée.
Q : Quelles API me sont facturées avec Amazon Textract ?
Pour plus d'informations sur les tarifs, reportez-vous à la page de tarification d'Amazon Textract.
Q : Combien coûte Amazon Textract ?
Amazon Textract vous facture en fonction du nombre de pages et d'images traitées. Pour plus d'informations, consultez la page de tarification.
Q : Amazon Textract fait-il partie de l'offre gratuite d'AWS ?
Oui. Dans le cadre de l'offre gratuite d'AWS, vous pouvez démarrer avec Amazon Textract gratuitement. L’offre gratuite dure trois mois et les nouveaux clients AWS peuvent analyser jusqu’à :
API Detect Document Text : 1000 pages par mois
API Analyze Document :
- 100 pages par mois pour l’utilisation de la fonction Formulaires ou Tableaux
- 100 pages supplémentaires par mois pour l’utilisation de la fonction Requêtes NOUVEAU
API Analyze Expense : 100 pages par mois
API Analyze ID : 100 pages par mois
Q : Vos prix sont-ils toutes taxes comprises ?
Pour obtenir des informations relatives à la fiscalité, consultez Aide sur les taxes Amazon Web Services.
Confidentialité des données
Q : Les entrées de documents et d'images traitées par Amazon Textract sont-elles stockées ? Comment sont-elles utilisées par AWS ?
Amazon Textract peut stocker et utiliser les documents et images traités par le service uniquement pour fournir et assurer le service, afin d'améliorer et de développer la qualité d'Amazon Textract et d'autres technologies de machine learning et d'intelligence artificielle d'Amazon. L'utilisation de votre contenu est nécessaire pour assurer l'amélioration continue de l'expérience client du service Amazon Textract, notamment le développement et la formation de technologies associées. Nous n'utilisons pas les informations personnellement identifiables qui peuvent être présentes dans votre contenu pour proposer à vos utilisateurs finaux ou à vous-même des produits, des services ou du marketing ciblés. Votre confiance, ainsi que la confidentialité et la sécurité de votre contenu, sont notre priorité absolue. Nous implémentons des contrôles techniques et physiques appropriés et sophistiqués, notamment le chiffrement au repos et en transit, afin d'éviter l'accès non autorisé à votre contenu ou sa divulgation. Nous nous assurons également que notre utilisation respecte nos engagements à votre égard. Pour en savoir plus, consultez la page https://aws.amazon.com/fr/compliance/data-privacy-faq/. Vous pouvez utiliser une stratégie d'exclusion d'AWS Organizations pour refuser l'utilisation de vos documents et images pour améliorer ou développer la qualité d'Amazon Textract et d'autres technologies de machine learning et d'intelligence artificielle d'Amazon. Pour en savoir plus sur la désinscription, voir Gestion de la politique de désinscription des services d'IA.
Q : Le contenu traité par Amazon Textract est-il transféré en dehors de la région AWS où j'utilise le service ?
Tout contenu traité par Amazon Textract est chiffré et stocké au repos dans la région AWS où vous utilisez le service. À moins que vous ne refusiez, comme indiqué ci-dessous, certaines parties du contenu traité par Amazon Textract peuvent être stockées dans une autre région AWS uniquement en lien avec l'effort d'amélioration et de développement continus de votre expérience client Amazon Textract et d'autres technologies de machine-learning et d'intelligence artificielle d'Amazon. Vous pouvez demander la suppression des entrées image et vidéo associées à votre compte en contactant AWS Support. Votre confiance, ainsi que la confidentialité et la sécurité de votre contenu, sont notre priorité absolue. Nous mettons en œuvre des contrôles techniques et physiques appropriés et sophistiqués, notamment le chiffrement au repos et en transit, afin d'éviter l'accès non autorisé à votre contenu ou sa divulgation. Nous nous assurons également que notre utilisation respecte nos engagements à votre égard. Pour en savoir plus, consultez la page https://aws.amazon.com/fr/compliance/data-privacy-faq/. Votre contenu ne sera pas stocké dans une autre région AWS si vous refusez l'utilisation de votre contenu dans le but d'améliorer et de développer la qualité d'Amazon Textract et d'autres technologies de machine learning et d'intelligence artificielle d'Amazon. Pour en savoir plus sur la désinscription, voir Gestion de la politique de désinscription des services d'IA.
Q : Puis-je supprimer des images et des documents stockés par Amazon Textract ?
Oui. Vous pouvez demander la suppression des documents et images associés à votre compte en contactant AWS Support. La suppression des entrées d'images et de documents peut dégrader votre expérience Amazon Textract.
Q : Qui a accès au contenu traité et stocké par Amazon Textract ?
Seuls les employés autorisés ont accès à votre contenu traité par Amazon Textract. Votre confiance, ainsi que la confidentialité et la sécurité de votre contenu, sont notre priorité absolue. Nous mettons en œuvre des contrôles techniques et physiques appropriés et sophistiqués, notamment le chiffrement au repos et en transit, afin d'éviter l'accès non autorisé à votre contenu ou sa divulgation. Nous nous assurons également que notre utilisation respecte nos engagements à votre égard. Pour en savoir plus, consultez la page https://aws.amazon.com/fr/compliance/data-privacy-faq/.
Q : Suis-je toujours propriétaire du contenu traité et stocké par Amazon Textract ?
Oui. Vous demeurez propriétaire de votre contenu, et nous n'utiliserons ce dernier qu'avec votre consentement.
Q : Amazon Textract est-il éligible HIPAA ?
Oui, AWS a étendu son programme de conformité HIPAA et comprend désormais Amazon Textract comme service éligible HIPAA. Si vous avez signé un accord de partenariat (BAA) avec AWS, vous pouvez utiliser Amazon Textract pour extraire du texte, y compris des informations de santé protégées (PHI), à partir d'images.
Q : Quels programmes de conformité sont concernés par Amazon Textract ?
Textract est éligible HIPAA et conforme aux normes PCI, ISO et SOC. Pour plus d'informations, consultez AWS Artifact dans la Console de gestion AWS, ou rendez-vous sur https://aws.amazon.com/compliance/services-in-scope/. Textract prend également en charge les points de terminaison Amazon Virtual Private Cloud (Amazon VPC) via AWS PrivateLink, ce qui permet aux clients de lancer en toute sécurité des appels d'API vers Amazon Textract depuis leur VPC et d'éviter d'utiliser l'Internet public.

Découvrez les cas d'utilisation et les témoignages de nos clients.

Commencez à créer avec Amazon Textract dans AWS Management Console.