Procédez à l'extraction d'entités personnalisées à partir de documents dans leur format natif avec Amazon Comprehend

Publié le: Sep 15, 2021

Amazon Comprehend est un service de traitement du langage naturel (NLP) qui utilise le machine learning pour découvrir des informations dans le texte et vous permettant désormais d'extraire des entités personnalisées à partir de documents dans une variété de formats (PDF, Word, texte brut) et de mises en page (sous forme de listes à puces par exemple). Cela vous permet d'extraire plus facilement des informations et d'automatiser davantage vos flux de traitement de documents.

Jusqu'à maintenant, vous pouviez utiliser Amazon Comprehend uniquement sur des documents en texte brut, vous obligeant à aplatir les documents afin de rendre le texte lisible par une machine, réduisant ainsi la qualité du contexte au sein de ces documents. Ces nouvelles fonctions combinent la puissance du Traitement du langage naturel (NLP) et de la Reconnaissance optique de caractères (OCR) pour extraire des entités personnalisées de vos documents PDF, Word et en texte brut à l'aide de la même API, sans prétraitement requis.

Les nouvelles fonctions de reconnaissance d'entité personnalisée utilise le contexte structurel du texte (placement de texte dans une page) combiné au contexte langagier naturel pour extraire des entités personnalisées à partir de texte dense, de listes numérotées et à puces. Cette combinaison permet également aux clients d'extraire des entités non contiguës ou déconnectées qui ne font pas immédiatement partie de la même étendue de texte (par exemple, des entités imbriquées dans un tableau). Grâce à ces nouvelles fonctions, il n'est plus nécessaire pour les clients de créer une logique personnalisée afin de convertir les fichiers PDF et Word en texte brut aplati avant d'utiliser Comprehend. En prenant en charge de manière native de nouveaux formats de documents, Comprehend offre des avantages clés aux clients de secteurs tels que les sociétés de crédit hypothécaire, de financement et d'assurance qui traitent divers formats et mises en page de documents. Par exemple, les sociétés de prêts hypothécaires peuvent désormais traiter les demandes plus rapidement en extrayant les informations bancaires et l'adresse d'un demandeur, ainsi que le nom du garant, à partir de documents tels que des fichiers PDF numérisés de relevés bancaires, de talons de paie ou encore d'attestations employeur.

Pour entraîner un modèle de reconnaissance d'entités personnalisées pouvant être utilisé sur vos documents PDF, Word et en texte brut, les clients doivent premièrement annoter les documents PDF à l'aide d'un modèle d'annotation Amazon SageMaker Ground Truth personnalisé fourni par Amazon Comprehend. Le modèle de reconnaissance d'entités personnalisées exploite à la fois le langage naturel et les informations de position (par exemple, les coordonnées) du texte pour extraire avec précision les entités personnalisées qui pouvaient auparavant être affectées lors de l'aplatissement d'un document. Pour obtenir des détails étape par étape sur la manière d'annoter vos documents, consultez la section Annotation de documents personnalisés en vue de l'extraction d'entités nommées dans des documents à l'aide d'Amazon Comprehend. Une fois que vous avez terminé d'annoter, vous pouvez entraîner un modèle de reconnaissance d'entités personnalisées et l'utiliser afin d'extraire des entités personnalisées à partir de fichiers PDF et Word pour un traitement (asynchrone) par lots. Pour extraire du texte ainsi que des emplacements spatiaux de texte à partir de documents PDF numérisés, Amazon Comprehend fait appel en votre nom à Amazon Textract avant la reconnaissance d'entité personnalisée. Pour plus d'informations sur l'entraînement et l'utilisation de votre modèle, consultez la section Extraction d'entités personnalisées de documents dans leur format natif avec Amazon Comprehend.

La prise en charge de la reconnaissance d'entités personnalisées pour les documents en texte brut, PDF et Word est disponible directement via la console AWS et l'AWS CLI. Pour obtenir la liste des régions AWS prenant en charge Amazon Comprehend et Textract, veuillez consulter le tableau des régions AWS de l'ensemble de l'infrastructure mondiale AWS.

Pour en savoir plus et commencer à utiliser Amazon Comprehend, visitez la page produit, la page de traitement intelligent des documents ou notre documentation.

Procédez à l'extraction d'entités personnalisées à partir de documents dans leur format natif avec Amazon Comprehend

Fin de la prise en charge d'Internet Explorer