Publié le: Apr 21, 2022

Amazon Textract est un service de machine learning qui extrait automatiquement le texte, l'écriture manuscrite et les données de tout document ou image. Textract vous offre désormais la flexibilité de spécifier les données que vous devez extraire des documents à l'aide des nouvelles fonctions Queries de l'API Analyze Document. Vous n'avez pas besoin de connaître la structure des données dans le document (tableau, formulaire, champ implicite, données imbriquées) ni de vous soucier des variations entre les versions et les formats de documents. Queries exploite une combinaison d'indices visuels, spatiaux et linguistiques pour extraire les informations que vous recherchez avec une grande précision.

Les solutions traditionnelles d'OCR peinent à extraire les données avec précision de la plupart des documents non structurés et semi-structurés en raison des variations importantes dans la manière dont les données sont présentées dans les multiples versions et formats de ces documents. Vous devez implémenter un code de post-traitement personnalisé ou examiner manuellement les informations extraites de ces documents. Vous devez également analyser l'ensemble du résultat de l'OCR afin d'extraire les informations dont vous avez besoin pour vos processus métier. Avec Queries, vous pourrez spécifier les informations dont vous avez besoin sous la forme de questions en langage naturel (par exemple, « Quel est le nom du client ») et recevoir les informations exactes (par exemple, « John Doe ») dans le cadre de la réponse API. Queries vous permet également d'attribuer un alias à chaque question, ce qui facilite l'intégration des résultats avec vos systèmes en aval. De plus, Queries est pré-entraîné sur une grande variété de documents non structurés, semi-structurés et structurés. Par exemple, les fiches de paie, les relevés bancaires, les W-2, les formulaires de demande de prêt, les notes d'hypothèque, les cartes de vaccin et d'assurance.

Pour en savoir plus sur cette nouvelle fonction, vous pouvez lire l'article de blog étape par étape pour démarrer dès maintenant, ou vous pouvez consulter la documentation. La tarification de cette nouvelle fonction est disponible sur la page de tarification d'Amazon Textract.

La solution Textract Analyze Document Queries sera disponible dès le 31 mars 2022 dans les régions suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Californie du Nord), USA Ouest (Oregon), Asie-Pacifique (Mumbai), Asie-Pacifique (Séoul), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Canada (Centre), EU (Francfort), EU (Irlande), EU (Londres), EU (Paris), AWS GovCloud (US, côte Est) et AWS GovCloud (US, côte Ouest). Cliquez ici pour démarrer avec Analyze Document Queries.