Publié le: Jul 27, 2021

Amazon Textract, un service de machine learning qui extrait du texte et des données structurées à partir de n'importe quel document ou image, offre désormais une prise en charge spécialisée pour les factures et les reçus. Jusqu'à aujourd'hui, ces documents importants étaient difficiles à traiter à grande échelle, car ils ne respectent pas de règles de conception établies et nécessitent souvent un contexte pour être interprétés correctement. Par exemple, les clients doivent parfois déduire le nom du fournisseur à partir du logo Amazon situé en haut de la facture, sans pouvoir se baser sur une étiquette du type « Fournisseur : Amazon ». Avec Textract, les clients peuvent à présent extraire des données étiquetées explicitement, des données implicites et des lignes à partir d'une liste détaillée de biens ou de services dans la quasi-totalité des factures ou reçus, sans aucun modèle ni configuration.

À partir d'aujourd'hui, Amazon Textract ajoute les fonctionnalités suivantes pour les reçus et les factures : 1) Identification du nom du fournisseur – Amazon Textract peut trouver le nom du fournisseur sur un reçu même s'il est uniquement indiqué au sein d'un logo sur la page, sans étiquette « fournisseur » explicite. Il peut également rechercher et extraire des articles, des quantités et des prix, y compris si les lignes n'ont pas d'en-têtes de colonne. 2) Consolidation de multiples documents en sortie – Lors de l'extraction des données des factures et des reçus, Textract applique une taxonomie standard aux noms de clé et aux en-têtes de colonne. Par exemple, il détecte que « facture n° », « numéro de facture » et « N° de reçu » sont identiques et génère « INVOICE_RECEIPT_ID », afin que les applications en aval puissent facilement comparer la sortie de nombreux documents, et 3) Extraction des détails des lignes, même en l'absence d'en-têtes de colonnes – Textract extrait les lignes, y compris les articles, les quantités et les prix des articles individuels achetés à partir d'une facture ou d'un reçu. Si le tableau répertoriant les articles n'inclut pas d'en-têtes de colonnes, Textract les déduit à partir du contenu.

Voici le témoignage de l'un de nos clients :

Fondée en 2010, l'entreprise Paymerang propose une solution de paiement électronique des fournisseurs à la fois simple, sécurisée et économique pour les entreprises. « Nous aidons nos clients de plusieurs secteurs à simplifier leurs processus de paiement des fournisseurs : nous éliminons les tâches de routine, effectuons les règlements par voie électronique et leur permettons d'obtenir des remises par la même occasion », explique Jason Losh, directeur des plateformes d'entreprise chez Paymerang. « Nous faisons appel à Amazon Textract, un service éligible HIPAA, pour aider nos clients du secteur de la santé à extraire automatiquement les données de leurs factures sans utiliser de logique personnalisée pour standardiser les informations extraites. En extrayant et en classant les données dans un ensemble cohérent de champs standard, Amazon Textract nous aide à servir les clients dont les factures fournisseurs ne respectent pas un modèle de présentation commun. »

Pour en savoir plus sur cette fonctionnalité, consultez la documentation détaillée et un article de blog qui décrit comment utiliser Textract pour les factures et les reçus avec une nouvelle API appelée AnalyzeExpense. Voici un lien vers la page de tarification.

AnalyzeExpense sera lancée par vagues, en commençant par la région Asie-Pacifique (Singapour) le 26 juillet, suivie par les régions Europe (Irlande) le 27 juillet, Asie-Pacifique (Sydney), USA Est (Ohio), USA Ouest (Californie du Nord) le 28 juillet, Europe (Francfort), Europe (Londres), USA Est (Virginie du Nord) le 29 juillet, Asie-Pacifique (Séoul), Asie-Pacifique (Mumbai), Canada (Centre), Europe (Paris), USA Ouest (Oregon) le 30 juillet et GovCloud (USA Ouest), GovCloud (USA Est) le 2 août.