Extrayez des entités personnalisées sur les fichiers image et JSON Textract avec Amazon Comprehend

Publié le: Mar 24, 2022

Amazon Comprehend prend maintenant en charge les documents au format image en plus de ceux texte, PDF et Word. Désormais, les clients peuvent se servir de la reconnaissance personnalisée des entités Comprehend pour extraire les entités des fichiers image (JPG, PNG, TIFF), et également utiliser Comprehend directement sur les sorties JSON Amazon Textract pour extraire les entités personnalisées des documents. Grâce à cette nouveauté, les clients peuvent simplifier leurs flux de traitement intelligent des documents (IDP) et ainsi tirer parti d'une intégration prête à l'emploi entre Comprehend et Textract pour extraire les entités des documents. Vous trouverez ci-dessous une description détaillée de ces fonctions :

Reconnaissance personnalisée des entités nommées (NER) sur les fichiers image – Amazon Comprehend avait précédemment lancé la prise en charge de la reconnaissance personnalisée des entités sur les documents PDF et Word (voir l'annonce pour en savoir plus). Dès aujourd'hui, les clients peuvent utiliser Comprehend pour extraire également les informations des documents au format image (JPG, PNG, TIFF) afin de prendre davantage en charge les flux de traitement des documents divers. Cette fonction élimine le besoin de traiter postérieurement les résultats de la reconnaissance optique des caractères (OCR) avant d'effectuer l'extraction des entités avec Comprehend. Tout d'abord, les clients annotent et entraînent un modèle de reconnaissance personnalisée des entités sur les documents PDF. Le modèle entraîné de reconnaissance personnalisée des entités exploite à la fois le langage naturel et les informations de position (par exemple, les coordonnées) du texte pour extraire avec précision les entités personnalisées des documents au format PDF, Word, texte brut et maintenant image, durant l'inférence. Pour en savoir plus, consultez la documentation.

NER personnalisée sur les sorties JSON Textract – Dès aujourd'hui, les clients peuvent utiliser leurs sorties JSON Textract DetectDocumentText ou AnalyzeDocument en tant qu'entrée durant l'inférence de la NER personnalisée Comprehend. En exploitant une sortie Textract existante, les clients peuvent simplifier davantage leurs flux de traitement des documents (et économiser du temps et de l'argent) et permettre à leurs flux d'extraire des entités personnalisées dans plus de types de document. Pour plus de détails, consultez la documentation.

Pour en savoir plus et démarrer, rendez-vous sur la page produit d'Amazon Comprehend.

Extrayez des entités personnalisées sur les fichiers image et JSON Textract avec Amazon Comprehend

Fin de la prise en charge d'Internet Explorer