Amazon Comprehend est un service de traitement du langage naturel (NLP) qui utilise l'apprentissage automatique pour identifier les idées d'un texte. Amazon Comprehend fournit des API d'extraction d'expressions clés, d'analyse des sentiments, de reconnaissance d'entités, de modélisation de rubriques et de détection de langue pour vous permettre d'intégrer facilement le traitement du langage naturel à vos applications. Vous devez simplement appeler les API d'Amazon Comprehend dans votre application, et leur fournir l'emplacement du document ou du texte source. Les API génèreront des entités, des expressions clés, des sentiments et des langues au format JSON, que vous pouvez utiliser dans votre application.

Extraction de phrases clés

L'API d'extraction d'expressions clés génère des expressions ou des sujets de discussion clés, ainsi qu'un indice de fiabilité qui vient confirmer l'importance de l'expression.

  • Exemple : dans cet exemple, un client compare son appareil photo reflex numérique à un appareil photo instantané. L'API extrait les expressions clés, compte le nombre de fois qu'une expression clé est répétée, et fournit un indice de fiabilité par rapport aux résultats.

    Modèle de texte : je suis passionné de photographie, et je me sers très souvent de mon appareil photo reflex numérique ou de mon appareil photo instantané, que j'emporte avec moi car j'en fais un usage occasionnel. Bien que la performance et la commodité de mon appareil photo reflex numérique soient inégalables, l'appareil photo instantané est pour moi synonyme de magie. Peut-être que c'est le fait de prendre des photos sur une véritable pellicule, ou de savoir que chaque cliché donne un objet physique unique (et c'est un phénomène spécial dans le monde d'aujourd'hui, où l'on trouve des photos à la pelle sur Instagram et Facebook). Ce dont je suis sûr, c'est que ces photos sont très amusantes à prendre, et que les yeux des gens s'illuminent quand vous sortez un appareil photo instantané lors d'une fête.

    Expressions clés Nombre Fiabilité
    passionné de photographie 1 0,99
    mon appareil photo reflex numérique 2 0,97
    mon appareil photo instantané 2 0,99
    usage occasionnel 1 0,99
    performance et commodité 1 0,94
    véritable pellicule 1 0,99
    chaque cliché 1 0,92
    un objet physique unique 1 0,99
    aujourd'hui 1 0,91
    monde 1 0,99
    Instagram et Facebook 1 0,99

Analyse des sentiments

L'API d'analyse des sentiments extrait le sentiment général qui se dégage d'un texte (positif, négatif, sans opinion ou mitigé).

Analyse syntaxique

L'API Amazon Comprehend Syntax permet aux clients d'analyser le texte en utilisant un système de jetons et de parties du discours (PoS), et identifie les limites des mots et leur attribue une étiquette, telle que les noms et les adjectifs dans le texte.

Reconnaissance d'entité

L'API de reconnaissance d'entités extrait les entités nommées (« personnes », « endroits »« lieux », etc.), qui sont automatiquement classées en fonction du texte fourni.

Extraction d'entités nommées et de relations médicales (NERe)

L'API Medical NERe renvoie les informations médicales telles que les médicaments, l'état pathologique, les tests, les traitements et les procédures (TTP), l'anatomie et les informations de santé protégées (PHI). Elle dentifie également les relations entre les sous-types extraits associés aux médicaments et au TTP. Des informations contextuelles sont également fournies sous forme de « traits » d'entité (négation, ou si un diagnostic est un signe ou un symptôme). Le tableau ci-dessous montre les informations extraites avec les sous-types et les traits d'entité pertinents.

Pour extraire uniquement les PHI, vous pouvez utiliser l’API PHId.

Entités personnalisées

Les entités personnalisées vous permettent de personnaliser Amazon Comprehend afin d'identifier les termes spécifiques à votre domaine. À l'aide d'AutoML, Comprehend apprend d'un petit index privé d'exemples (par exemple, une liste de numéros de polices et le texte dans lequel ils sont utilisés), puis forme un modèle privé personnalisé pour qu'il reconnaisse ces termes dans tout autre bloc de texte. Vous ne devez gérer aucun serveur, ni maîtriser d'algorithme.

Détection de la langue

L'API de détection de la langue identifie automatiquement un texte rédigé dans plus de 100 langues et extrait la langue dominante, ainsi qu'un indice de fiabilité confirmant la prédominance de cette langue.

Classification personnalisée

L'API de classification personnalisée vous permet de créer facilement des modèles de classification de texte personnalisés l'aide des étiquettes de votre entreprise, sans devoir apprendre de Machine Learning. Par exemple, votre organisation de support à la clientèle peut utiliser la classification personnalisée pour classer automatiquement les demandes entrantes par type de problème en fonction de la manière dont le client a décrit le problème. La création d’un modèle est simple. Vous fournissez des exemples de texte pour chacune des étiquettes que vous souhaitez utiliser et Comprehend s’entraîne sur ces exemples pour créer votre modèle personnalisé. Aucune expérience en machine learning n'est requise. Vous pouvez créer votre modèle personnalisé sans utiliser une seule ligne de code. Un SDK est disponible pour vous permettre d'intégrer votre classificateur client dans vos applications actuelles. Avec votre modèle personnalisé, il est facile de modérer les commentaires de sites Web, de trier les commentaires des clients et d'organiser les documents des groupes de travail. Pour plus d’informations, consultez cette page de documentation.

Modélisation de thèmes

La modélisation de rubriques identifie des termes ou des sujets pertinents dans une collection de documents stockés sur Amazon S3. Elle identifie les sujets les plus courants de la collection et les classe par groupes avant d'associer tel ou tel document à une rubrique.

  • Exemple : si vos documents (Doc1.txt, Doc2.txt, Doc3.txt et Doc4.txt) sont stockés sur Amazon S3, et si vous indiquez leur emplacement à Amazon Comprehend, le service va analyser les documents et en extraire deux vues :

    1. Regroupement de mots clés qui constituent des rubriques.

    Chaque groupe de mots clés est associé à un groupe de rubriques. La pondération fait référence à la prévalence d'un mot clé au sein du groupe. Les mots clés qui possèdent le poids le plus proche de 1 sont ceux qui en révèlent le plus sur le contexte du groupe de rubriques.
    Groupe de rubriques Mots clés Poids
    1 Amazon 0,87
    1 Seattle 0,65
    2 Vacances 0,78
    2 Shopping 0,67
    Chaque groupe de mots clés est associé à un groupe de rubriques. La pondération fait référence à la prévalence d'un mot clé au sein du groupe. Les mots clés qui possèdent le poids le plus proche de 1 sont ceux qui en révèlent le plus sur le contexte du groupe de rubriques.

    2. Regroupement des documents par rubriques.

    Nom du document Groupe de rubriques Proportion
    Doc1.txt 1 0,87
    Doc2.txt 1 0,65
    Doc3.txt 2 0,78
    Doc4.txt 2 0,67
    Chaque document est associé à un groupe de rubriques en fonction de la proportion des mots clés pondérés du groupe de rubriques présents dans le document.

Support multilingue

Amazon Comprehend peut effectuer des analyses sur des textes rédigés en anglais, français, allemand, italien, portugais et espagnol. Cela vous permet de créer des applications capables de détecter du texte rédigé dans différentes langues, de convertir le texte en anglais, français, allemand, italien, portugais et espagnol grâce à Amazon Translate, puis d'utiliser Amazon Comprehend afin d'effectuer une analyse du texte.

En savoir plus sur la tarification d'Amazon Comprehend

Visiter la page de tarification
Prêt à vous lancer ?
S'inscrire
D'autres questions ?
Contactez-nous