Amazon Comprehend est un service de traitement du langage naturel (NLP) qui utilise le machine learning pour identifier les informations d'un texte. Amazon Comprehend fournit des API de reconnaissance d'entités personnalisées, de classification personnalisée, d'extraction de phrases clés, d'analyse des sentiments, de reconnaissance d'entités et plus encore pour vous permettre d'intégrer facilement un traitement du langage naturel à vos applications. Vous devez simplement appeler les API d'Amazon Comprehend dans votre application, et leur fournir l'emplacement du document ou du texte source. Les API génèreront des entités, des expressions clés, des sentiments et des langues au format JSON, que vous pouvez utiliser dans votre application.
Reconnaissance d'entités personnalisées
La reconnaissance d'entités personnalisées vous permet de personnaliser Amazon Comprehend afin d'identifier les termes spécifiques à votre domaine. Avec AutoML, Comprehend apprend à partir de quelques exemples (tels qu'une liste de numéros de polices, des numéros de demandes ou des SSN). Ensuite, le service entraîne un modèle privé personnalisé pour reconnaître ces termes (par exemple des numéros de demandes) dans n'importe quel autre bloc de texte dans des documents au format PDF, texte brut ou Microsoft Word, sans nécessité du machine learning. Pour plus d'informations, consultez cette page de documentation.
-
Exemple : dans cet exemple, une compagnie d'assurance souhaite analyser des documents texte pour rechercher des entités spécifiques à son activité : les numéros de polices.
Exemple de texte : Bonjour, mon nom est Sam Ford et je voudrais faire une déclaration de sinistre suite à un accident de roulage. Mon numéro de police est 456-YQT.
Entité Catégorie Nombre Fiabilité 456-YQT ID de police 1 0.95
Classification personnalisée
L'API de classification personnalisée vous permet de créer facilement des modèles de classification de texte personnalisés l'aide des étiquettes de votre entreprise, sans devoir apprendre de Machine Learning. Par exemple, votre organisation de support à la clientèle peut utiliser la classification personnalisée pour classer automatiquement les demandes entrantes par type de problème en fonction de la manière dont le client a décrit le problème. Avec votre modèle personnalisé, il est facile de modérer les commentaires de sites Web, de trier les commentaires des clients et d'organiser les documents des groupes de travail. Pour plus d'informations, consultez cette page de documentation.
-
Exemple : Supposons que vous souhaitiez organiser les commentaires du support de votre une compagnie aérienne. Vous souhaitez organiser chaque commentaire dans les catégories Questions sur le compte, Remboursements de billets et de Réclamations relatives aux vols. Pour entraîner le service, vous devez créer un fichier CSV contenant un exemple de texte de chaque numéro, puis étiqueter chaque échantillon avec l'une des trois étiquettes qui s'applique. Le service entrainera automatiquement un modèle personnalisé pour vous. Pour utiliser votre modèle afin d'analyser tous les appels le lendemain, vous envoyez chaque fichier texte au service et recevez les résultats étiquetés avec une étiquette correspondante.
Texte Étiquette Score de fiabilité Ligne 0 Question sur le compte 0,92 Ligne 1 Remboursement de billets 1 Ligne 2 Plainte de vol d’avion 1 Ligne 3 Plainte de vol d’avion 0,91 Doc5.csv Remboursement de billets 1
Reconnaissance d'entité
L'API de reconnaissance d'entités extrait les entités nommées (« personnes », « endroits », « lieux », etc.), qui sont automatiquement classées en fonction du texte fourni. Pour plus d'informations, consultez cette page de documentation.
-
Exemple : dans cet exemple, nous analysons la description d'une entreprise. L'API identifie des entités telles que l'organisation, la date, le lieu, et fournit un indice de fiabilité.
Modèle de texte : Amazon.com, Inc. se trouve à Seattle (État de Washington), et a été créée le 5 juillet 1994 par Jeff Bezos. Elle permet aux clients d'acheter tout ce qu'ils souhaitent, des livres aux mixeurs. Seattle se situe au nord de Portland et au sud de Vancouver (Colombie-Britannique). D'autres entreprises notables, Starbucks et Boeing, sont également basées à Seattle.
Entité Catégorie Fiabilité Amazon.com, Inc.
Organisation 0,96 Seattle, WA Lieu 0,96 5 juillet 1994 Date 0,99 Jeff Bezos Personne 0,99 Seattle
Lieu 0,98 Portland
Lieu 0,99 Vancouver, Colombie-Britannique Lieu 0,97 Starbucks
Organisation 0,91 Boeing
Organisation 0,99
Analyse des sentiments
L'API d'analyse des sentiments extrait le sentiment général qui se dégage d'un texte (positif, négatif, sans opinion ou mitigé). Pour plus d'informations, consultez cette page de documentation.
-
Exemple : dans cet exemple, un client poste son commentaire sur une paire de chaussures. L'API identifie le sentiment exprimé par le client, et fournit également un indice de fiabilité.
Modèle de texte : j'avais commandé une paire taille Small, qui aurait dû m'aller parfaitement, mais la taille que j'ai reçue était plutôt du Medium/Large. Les chaussures sont d'excellente qualité. Leur brun est un peu plus clair que celui de la photo, mais la couleur reste très ressemblante. Elles seraient dix fois mieux si l'intérieur était doublé de coton ou de laine.
Sentiment Résultat Mitigé 0,89 Positif 0,09 Négatif 0,01 Sans opinion 0,00
Sentiment ciblé
Le sentiment ciblé fournit des informations plus granulaires sur les sentiments en identifiant le sentiment (positif, négatif, neutre ou mixte) à l'égard des entités dans le texte. Pour plus d'informations, consultez cette page de documentation.
-
Exemple : dans cet exemple, un restaurant examine une critique d'un client pour comprendre où il peut améliorer son activité.
Exemple de texte : J'ai adoré le burger, mais le service était lent.
Texte Type d’entité Score de fiabilité de l’entité Sentiment Indice Je Personne 0,99 Sans opinion 0,99 Burger Autre 0,99 Positif 0,99 Service Attribut 0,99 Négatif 0,99
Rédaction et identification des informations personnelles identifiables
Utilisez les fonctionnalités de ML d'Amazon Comprehend pour détecter et rédiger des données d'identification personnelle (PII) dans les e-mails des clients, les tickets de support, les commentaires sur les produits, les réseaux sociaux et bien plus encore. Aucune expérience en ML n'est requise. Par exemple, vous pouvez analyser les tickets de support et les articles de bases de connaissances pour détecter les entités PII et rédiger le texte avant d'indexer les documents dans la solution de recherche. Ensuite, les solutions de recherche ne contiennent plus de PII dans les documents. La rédaction d'entités PII vous aide à protéger la confidentialité et à être conforme aux lois et réglementations locales. Pour plus d'informations, consultez cette page de documentation.
-
Exemple : dans cet exemple, un client souhaite rédiger des données financières personnelles provenant d'un relevé bancaire. L'API de rédaction de PII identifie et rédige des PII, et fournit un indice de fiabilité.
Exemple de texte : Bonjour, John Smith. La carte de crédit du compte 1111-0000-1111-0008 de votre entreprise AnyCompany Financial Services, LLC dispose d'un paiement minimum de 24,53 USD dû d'ici le 31 juillet. En fonction de vos paramètres de prélèvement automatique, nous déduirons votre paiement à la date d'échéance de votre compte bancaire numéro XXXXXX1111 ayant pour numéro de routage XXXXX0000.
Entité
Type
Indice
John Smith
Nom
0,99+
1111-0000-111-0008
Numéro de carte de paiement
0,99+
31 juillet
Date et heure
0,99+
XXXXXX111
Numéro de compte bancaire
0,99+
XXXXX0000
Numéro de routage bancaire
0,99+
Détection de toxicité
La détection de toxicité Comprehend fournit une solution simple, basée sur la PNL, pour la détection du contenu toxique dans les documents textuels. La capacité est prête à l'emploi pour modérer les conversations pair à pair sur les plateformes en ligne et les entrées et sorties d'IA génératives. Pour plus d'informations, consultez cette page de documentation.
Classification de sécurité rapide
Comprehend fournit un classificateur binaire préformé qui peut classer l'invite de saisie comme nuisible ou non. Cela peut être intégré pour permettre aux LLM de ne répondre qu'à un contenu inoffensif. Pour plus d'informations, consultez cette page de documentation
Extraction de phrases clés
L'API d'extraction de phrases clés génère des expressions ou des sujets de discussion clés, ainsi qu'un indice de fiabilité qui vient confirmer l'importance de l'expression. Pour plus d'informations, consultez cette page de documentation.
-
Exemple : dans cet exemple, un client compare son appareil photo reflex numérique à un appareil photo instantané. L’API extrait les expressions clés et renvoie un score de fiabilité sur les résultats.
Modèle de texte : je suis passionné de photographie, et je me sers très souvent de mon appareil photo reflex numérique ou de mon appareil photo instantané, que j'emporte avec moi car j'en fais un usage occasionnel. Bien que la performance et la commodité de mon appareil photo reflex numérique soient inégalables, l'appareil photo instantané est pour moi synonyme de magie. Peut-être que c'est le fait de prendre des photos sur une véritable pellicule, ou de savoir que chaque cliché donne un objet physique unique (et c'est un phénomène spécial dans le monde d'aujourd'hui, où l'on trouve des photos à la pelle sur Instagram et Facebook). Ce dont je suis sûr, c'est que ces photos sont très amusantes à prendre, et que les yeux des gens s'illuminent quand vous sortez un appareil photo instantané lors d'une fête.
Expressions clés Fiabilité passionné de photographie 0,99
mon appareil photo reflex numérique 0,97 mon appareil photo instantané 0,99
usage occasionnel 0,99
performance et commodité 0,94 véritable pellicule 0,99 chaque cliché 0,92 un artefact physique unique 0,99
aujourd'hui 0,91 monde 0,99
Instagram et Facebook 0,99
Détection des événements
Comprehend Events vous permet d'extraire la structure de l'événement à partir d'un document en regroupant des pages de texte pour que vos applications d'IA ou vos outils de visualisation des graphiques puissent facilement traiter les données à des fins de consommation. Cette API vous permet de répondre aux questions qui-quoi-quand-où sur de grands ensembles de documents, à grande échelle et sans expérience préalable en traitement du langage naturel (NLP). Utilisez Comprehend Events pour extraire des détails précis sur les événements du monde réel et les entités associées exprimés dans les textes non structurés. Pour plus d'informations, consultez cette page de documentation.
Détection de la langue
L'API de détection de la langue identifie automatiquement un texte rédigé dans plus de 100 langues et extrait la langue dominante, ainsi qu'un indice de fiabilité confirmant la prédominance de cette langue. Pour plus d'informations, consultez cette page de documentation.
-
Exemple : dans cet exemple, l'API analyse le texte et est en mesure d'identifier l'italien en tant que langue dominante. Elle fournit également un indice de fiabilité pour ce texte.
Modèle de texte : Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
Code ISO-639-1 pour la représentation des noms de langue Langue Fiabilité it Italien 1,0
Analyse syntaxique
L'API Amazon Comprehend Syntax permet aux clients d'analyser le texte en utilisant un système de création de jeton et de parties du discours (PoS), et identifie les limites des mots et leur attribue une étiquette, telle que les noms et les adjectifs dans le texte. Pour plus d'informations, consultez cette page de documentation.
-
Exemple : dans cet exemple, nous allons analyser un court document à l'aide de l'API Comprehend Syntax. Cette API syntaxique permet de définir les limites des mots (jetons) et d'étiqueter chaque mot avec la partie du discours qui lui est associée, par exemple, le nom et le verbe. En plus de noter le décalage du début et de fin (afin que vous sachiez où se trouve le mot dans le texte), nous fournissons également un score de confiance.
Exemple de texte : J'adore mon nouveau Kindle Fire, il est si rapide !
Texte Balise J' Pronom adore Verbe
mon Pronom Rapide Adjectif , Ponctuation Nouveau Adjectif Kindle Nom propre Fire
Nom propre ! Ponctuation
Modélisation de thèmes
La modélisation de rubriques identifie des termes ou des sujets pertinents dans une collection de documents stockés sur Amazon S3. Elle identifie les rubriques les plus courantes de la collection et les classe par groupes avant d'associer tel ou tel document à une rubrique. Pour plus d'informations, consultez cette page de documentation.
-
Exemple : si vos documents (Doc1.txt, Doc2.txt, Doc3.txt et Doc4.txt) sont stockés sur Amazon S3, et si vous indiquez leur emplacement à Amazon Comprehend, le service va analyser les documents et en extraire deux vues :
1. Regroupement de mots clés qui constituent des rubriques.
Chaque groupe de mots clés est associé à un groupe de rubriques. La pondération fait référence à la prévalence d'un mot clé au sein du groupe. Les mots clés qui possèdent le poids le plus proche de 1 sont ceux qui en révèlent le plus sur le contexte du groupe de rubriques.Groupe de rubriques Mots clés Poids 1 Amazon 0,87 1 Seattle 0,65 2 Vacances 0,78 2 Shopping 0,67 Chaque groupe de mots clés est associé à un groupe de rubriques. La pondération fait référence à la prévalence d'un mot clé au sein du groupe. Les mots clés qui possèdent le poids le plus proche de 1 sont ceux qui en révèlent le plus sur le contexte du groupe de rubriques.2. Regroupement des documents par rubriques.
Nom du document Groupe de rubriques Proportion Doc1.txt 1 0,87 Doc2.txt 1 0,65 Doc3.txt 2 0,78 Doc4.txt 2 0,67 Chaque document est associé à un groupe de rubriques en fonction de la proportion des mots clés pondérés du groupe de rubriques présents dans le document.
Support multilingue
Amazon Comprehend peut effectuer des analyses sur des textes écrits en allemand, en anglais, en espagnol, en italien,
en portugais, en français, en japonais, en coréen, en hindi, en arabe, en chinois (simplifié) et en chinois (traditionnel). Pour créer des applications dans d'autres langues, les clients peuvent utiliser Amazon Translate pour traduire le texte dans une langue prise en charge par Comprehend, puis utiliser Comprehend pour analyser le texte. Pour plus de détails sur le support multilingue, veuillez consulter la page de documentation.
En savoir plus sur la tarification d'Amazon Comprehend