Publié le: Jan 26, 2022

Amazon Textract est un service de machine learning qui extrait automatiquement du texte et des données de l'écriture manuscrite et des documents numérisés. Il va au-delà de la simple reconnaissance optique des caractères (OCR) pour identifier, comprendre et extraire les données de formulaires et de tableaux.

Auparavant, les clients devaient convertir leurs documents PDF en documents au format PNG ou JPEG avant d'appeler les API synchrones de Textract (DetectDocumentText, AnalyzeDocument, AnalyzeExpense et AnalyzeID) afin d'extraire le texte et les données de ces documents, tels que les formulaires de réclamations, les factures et reçus, les contrats et accords, les documents d'identité et les formulaires de candidature. À partir d'aujourd'hui, Amazon Textract supprime cette étape de prétraitement et prend en charge les documents PDF à page unique dans les opérations synchrones afin que les clients puissent extraire le texte et les données à partir des documents PDF sans avoir à les convertir au format PNG ou JPEG.

De plus, Amazon Textract prend désormais en charge le traitement des images encodées au format JPEG 2000 contenues dans les documents PDF. Vous pouvez désormais extraire le texte et les données des images encodées au format JPEG 2000 depuis vos documents PDF.

Pour démarrer, connectez-vous à la console Amazon Textract pour tester vos documents PDF. Pour en savoir plus sur les fonctionnalités de Textract, consultez le site Web d'Amazon Textractle guide du développeur ou la page des ressources.