Amazon Comprehend fournit le traitement du langage naturel, la détection et la rédaction des données d'identification personnelle (PII), la classification personnalisée et la détection d'entités, ainsi que la modélisation de rubriques, permettant ainsi une large gamme d'applications capables d'analyser du texte brut et, avec certaines API, des formats de documents comme PDF et Word.  

  • Traitement du langage naturel : les API Amazon Comprehend de reconnaissance d'entité, d'analyse de ressenti, d'analyse de syntaxe, d'extraction de phrases clés et de détection de la langue peuvent être utilisées pour extraire des informations de textes en langage naturel. Ces demandes sont mesurées en unités de 100 caractères (1 unité = 100 caractères), avec une facturation minimale de 3 unités (300 caractères) par demande.
  • Données d'identification personnelle (PII) : l'API de détection de PII permet de trouver tous les emplacements des entités PII (données d'identification personnelle) sélectionnées dans un document. Elle peut être utilisée pour créer des versions rédigées de documents. L'API d'identification des PII vous indique si un document comprend les données d'identification personnelle identifiables sélectionnées ou non. Ces demandes sont également mesurées en unités de 100 caractères (1 unité = 100 caractères), avec facturation minimale de 3 unités (300 caractères) pour chaque demande.
  • Comprehend personnalisé : les API de classification personnalisée et d'entités personnalisées peuvent entraîner un modèle NLP (Natural Language Processing) personnalisé afin qu'il classe le texte et extrait des entités personnalisées. Les demandes d'inférence asynchrones sont mesurées en unités de 100 caractères, 3 unités (300 caractères) étant facturées au minimum pour chaque demande. Vous êtes facturé 3 USD par heure pour la formation des modèles (facturation à la seconde) et 0,50 USD par mois pour la gestion des modèles personnalisés. Pour les demandes d'inférence asynchrones de classification personnalisée et d'entités, prévoyez un point de terminaison avec un débit adéquat. Vous serez facturé pour toute la durée d'existence de votre point de terminaison, du moment de sa création à sa suppression.
  • Modélisation de rubriques : identifie les thèmes ou rubriques d'un recueil de documents stocké dans Amazon S3. Elle identifie les thèmes les plus courants du recueil et les organise en groupes, puis associe chaque document au thème correspondant. Vous êtes facturé en fonction de la taille totale des documents traités par tâche. Les 100 premiers Mo sont facturés à un tarif fixe. Au-delà de 100 Mo, vous êtes facturé par Mo.
  • Vous pouvez estimer vos coûts à l'aide du calculateur de tarification AWS.
our les volumes supérieurs à 100 millions d'unités par mois, veuillez nous contacter pour connaître la tarification.
Les demandes de traitement du langage naturel sont mesurées en unités de 100 caractères, avec une facturation minimale de 3 unités (300 caractères) pour chaque demande..

Avec les API Amazon Comprehend, vous pouvez traiter du texte brut non structuré et , avec certaines API, d'autres fichiers texte comme les documents PDF et Word. 

Comprehend personnalisé

Entités personnalisées et classification
Pour la reconnaissance d'entités asynchrones sur les documents PDF*, Word et en texte brut

Les demandes d'inférence sont mesurées en unités de 100 caractères, avec facturation minimale de 3 unités (300 caractères) par demande.

Pour la classification asynchrone

Les demandes d'inférence sont mesurées en unités de 100 caractères, avec facturation minimale de 3 unités (300 caractères) pour chaque demande.

Pour la classification synchrone et la reconnaissance des entités

Les points de terminaison sont facturés à la seconde, avec un minimum de 60 secondes. Les frais continueront à être facturés à partir du moment où vous démarrez le point de terminaison jusqu'à sa suppression, même si aucun document n'est analysé.

Une unité d'inférence (UI) fournit un débit de 100 caractères/seconde à votre point de terminaison géré. Des UI supplémentaires peuvent être ajoutées pour augmenter le débit. Chaque UI sera facturée 0,0005 USD par seconde.

3 USD par heure pour l'entraînement du modèle

*pour extraire du texte de documents PDF scannés, utilisez l'API Detect Document Text d'Amazon Textract.

Modélisation de rubriques

Pour les 100 premiers Mo

Pour chaque Mo au-delà de 100 Mo

Vous êtes facturé en fonction de la taille totale des documents traités par chaque tâche de modélisation de thèmes. Les 100 premiers Mo sont facturés à un tarif fixe. Au-delà de 100 Mo, vous êtes facturé par Mo.

Offre gratuite

50 000 unités de texte (5 millions de caractères)

Pour chacune des 9 API (extraction de phrases clés, analyse de sentiment, reconnaissance d'entité, détection de langue, détection d’informations personnelles identifiables, identification d’informations personnelles identifiables, détection d'événements, analyse syntaxique, entités personnalisées et classification personnalisée) par mois, à compter de la date de votre première demande Amazon Comprehend.

En ce qui concerne la classification personnalisée et les entités personnalisées, il n'existe pas d'offre gratuite pour l'entraînement des modèles, la gestion des modèles et les points de terminaison.

5 tâches de 1 Mo maximum chacune

Pour la modélisation de thèmes

L'offre gratuite d'Amazon Comprehend est disponible pour tous les clients AWS, qu'ils soient nouveaux ou non, pendant 12 mois à compter de la date de leur première demande Amazon Comprehend.

Tarification Amazon Comprehend Medical

Avec Amazon Comprehend Medical, vous ne payez qu'en fonction de votre consommation. Vous êtes facturé en fonction de la quantité de texte traité sur une base mensuelle. Amazon Comprehend Medical fournit deux API : l'extraction d'entités nommées et de relations médicales (NER) et l'extraction et l'identification de données d'informations de santé protégées (PHId).

L’API Medical NERe extrait des entités, des relations d’entités, des traits d’entité et des PHI. Si les clients souhaitent identifier uniquement les informations PHI pour la protection des données, ils peuvent réclamer l’API PHId. Toutes les demandes d'API sont mesurées en unités de 100 caractères, avec facturation minimale d'une unité (100 caractères) pour chaque demande.

Offre gratuite Amazon Comprehend Medical

Amazon Comprehend Medical propose une offre gratuite couvrant 25 000 unités de texte (2,5 millions de caractères) pendant les trois premiers mois lorsque vous commencez à utiliser le service pour l'une des API.

Exemples de tarification d'Amazon Comprehend

Exemple 1 – Analyse des commentaires client

Supposons que vous avez créé une application à l'aide d'Amazon Comprehend pour analyser les commentaires des clients sur votre boutique en ligne. Vous avez reçu 10 000 commentaires de clients qui contiennent 550 caractères chacun. Vous utilisez le service depuis plus d'un an.

Calcul du coût total :

Taille de chaque demande = 550 caractères

Nombre d'unités par demande = 6

Nombre total d'unités : 10 000 (demandes) x 6 (unités par demande) = 60 000

Prix unitaire = 0,0001 USD

Coût total = [nb d'unités] x [coût unitaire] = 60 000 x 0,0001 USD = 6,00 USD


Exemple 2 – Catégorisation de documents par sujets

Supposons que vous disposez d'un ensemble de documents de recherche d'une taille totale de 240 Mo que vous souhaitez classer par thème et que vous désirez recommander des documents à vos clients en fonction de leur centre d'intérêt. Supposons également que vous utilisez le service depuis plus d'un an et que vous ne pouvez pas bénéficier de l'offre gratuite.

Calcul du coût total :

Nombre total de mégaoctets traités = 240

Nombre de mégaoctets facturés à un tarif fixe de 1 USD = 100

Nombre de mégaoctets facturés à 0,004 USD/Mo = 140 [240 – 100]

Coût total de la tâche = 1,00 USD + [140 x 0,004 USD] = 1,00 USD + 0,56 USD = 1,56 USD


Exemple 3 – Classification de commentaires client à l’aide de l’API de Classification personnalisée

Disons que vous voulez former un classificateur pour organiser automatiquement les nouveaux commentaires des clients qui proviennent de votre site Web. 10 clients envoient leurs commentaires chaque minute, et chaque commentaire fait 300 caractères. La formation du modèle personnalisé prend une heure et vous prévoyez conserver ce modèle pendant un mois. La formation des modèles vous coûtera donc 3 USD et les frais de stockage des modèles s'élèveront à 0,50 USD par mois. Supposons également que vous utilisez le service depuis plus d'un an et que vous ne pouvez pas bénéficier de l'offre gratuite.

Pour une classification asynchrone des commentaires, vous payez en fonction du nombre de caractères dans vos documents. Pour une classification en temps réel, vous devez prévoir un point de terminaison avec un débit suffisant pour traiter votre cas d'utilisation et vous payez pour la durée de mise en service du point de terminaison. 

Calcul du coût d'inférence pour la classification asynchrone :

Taille de chaque demande par jour = 4 320 000 caractères [300 caractères x 10 documents x 1 440 minutes]

Nombre d'unités par demande = 43 200 unités [432 000 caractères ÷ 100 caractères par unité]

Prix unitaire = 0,0005 USD

Coût d'inférence total des unités = 21,60 USD [43 200 unités x 0,0005 USD]

Coût total = 25,10 USD [21,60 USD d'inférence + 3 USD de formation des modèles + 0,50 USD de stockage des modèles]

Calcul du coût total pour la classification synchrone :

Commençons par calculer le débit nécessaire. Chaque minute, nous classifions 10 documents de 300 caractères chacun. Ce qui équivaut à :

50 caractères par seconde [300 caractères x 10 documents ÷ 60 secondes]

Donc, il vous faudra prévoir un point de terminaison avec 1 Unité d'Inférence (UI), qui offre un débit de 100 caractères par seconde.

Prix pour 1 UI = 0,0005 USD par seconde

Les coûts dépendent de la durée pendant laquelle vous maintenez actif votre point de terminaison de classification en temps réel, quel que soit le nombre de demandes d'inférence effectuées.

Si vous activez votre point de terminaison de classification en temps réel pendant 12 heures par jour :

Coût total d'inférence = 21,60 USD [0,0005 USD x 3 600 secondes x 12 heures]

Coût total = 25,10 USD [21,60 USD d'inférence + 3 USD de formation des modèles + 0,50 USD de stockage des modèles]

Veuillez noter que des frais seront appliqués en fonction du débit prévu et de la durée d'activité du point de terminaison. Si vous avez besoin d'un débit plus élevé, la tarification sera la suivante :

Prix pour 2 UI = 0,001 USD par seconde [0,0005 USD x 2]

Prix pour 3 UI = 0,0015 USD par seconde [0,0005 USD x 3]


Exemple 4 - Extraction d'entités médicales à partir de documents cliniques

Supposons que vous avez créé une application à l'aide d'Amazon Comprehend Medical pour analyser des documents cliniques au sein de votre Data Lake. Vous disposez de 1 000 documents cliniques de 2 550 caractères chacun. Supposons également que vous utilisez le service depuis plus d'un an et que vous ne pouvez pas bénéficier de l'offre gratuite.

Calcul du coût total :

Taille de chaque demande = 2 550 caractères

Nombre d'unités par demande = 26 unités [2 550 caractères ÷ 100 caractères par unité]

Nombre total d'unités : 1 000 (demandes) x 26 (unités par demande) = 26 000

Prix unitaire = 0,01 USD

Coût total = [nb d'unités] x [coût unitaire] = 26 000 x 0,01 USD = 260,00 USD


Exemple 5 – Analyse des commentaires client à l’aide de l'API d'entités personnalisées

Imaginons que vous vouliez former un modèle d'entité personnalisé pour extraire automatiquement les termes personnalisés des commentaires des clients en provenance de votre site Web. La formation dure 1,5 heure et vous analysez 10 000 commentaires de clients de 550 caractères chacun. Vous prévoyez de conserver ce modèle pendant un mois. Supposons également que vous utilisez le service depuis plus d'un an et que vous ne pouvez pas bénéficier de l'offre gratuite.

Calcul du coût total :

Taille de chaque demande = 5,500,000 caractères

Nombre d'unités par demande = 55,000 unités [5,500,000 caractères ÷ 100 caractères par unité]

Prix unitaire = 0,0005 USD

Coût total des unités = 27,5 USD [55 000 unités x 0,0005 USD]

Heures totales pour l'entraînement du modèle = 1,5 heure

Prix par heure = 3 USD

Coût total de l'entraînement du modèle = 4,5 USD [1,5 heure x 3 USD]

Nombre de mois pour la gestion de modèle = 1 mois

Prix par mois = 0,50 USD 

Coût total de la gestion de modèle = 0,50 USD [1 mois x 0,50 USD]

Coût total = 37 USD [27,5 USD + 4,5 USD + 0,50 USD]


Exemple 6 : extraction d’événements et des informations associées à l’aide de la détection d’événements

Supposons que vous souhaitiez extraire 3 types d’événements de 3 000 articles contenant 500 caractères chacun et que vous en soyez à votre deuxième année d’utilisation du service.

Calcul du coût total :

Nombre de caractères traités = 1 500 000 caractères [3 000 articles x 500 caractères]

Nombre d'unités traitées = 45 000 unités [1 500 000 x 3 types d’événements ÷ 100 caractères par unité]

Prix unitaire = 0,003 USD

Coût total des unités = 135 USD [45,000 unités x 0,003 USD]


Exemple 7 : identification de documents contenant des informations personnelles identifiables à l’aide de l’API d’identification des PII

Supposons que vous avez créé une application à l'aide d'Amazon Comprehend pour analyser les commentaires des clients sur votre boutique en ligne. Vous avez reçu 10 000 commentaires d’utilisateurs de 550 caractères chacun et vous avez besoin d’identifier quels documents contiennent des informations personnelles identifiables afin de les stocker dans un emplacement sûr. Supposons que vous en soyez à la deuxième année de votre utilisation du service.

Calcul du coût total :

Taille de chaque demande = 550 caractères

Nombre d'unités par demande = 6

Nombre total d'unités : 60 000 [10 000 demandes x 6 unités par demande]

Prix unitaire = 0,000002 USD

Coût total = 0,12 USD [60 000 unités x 0,000002 USD]

Exemple 8 : rédaction d’informations personnelles identifiables à partir de documents à l’aide de l’API de détection de PII

Supposons que vous avez créé une application à l'aide d'Amazon Comprehend pour analyser les commentaires des clients sur votre boutique en ligne. Vous avez reçu 10 000 commentaires d’utilisateurs de 550 caractères chacun et vous avez besoin de créer des versions rédigées des documents avant leur archivage. Supposons que vous en soyez à la deuxième année de votre utilisation du service.

Calcul du coût total :

Taille de chaque demande = 550 caractères

Nombre d'unités par demande = 6

Nombre total d'unités : 60 000 [10 000 demandes x 6 unités par demande]

Prix unitaire = 0,0001 USD

Coût total = 6 USD [60 000 unités x 0,0001 USD]

Exemple 9 – Extraction d'entités d'une demande de crédit immobilier à l'aide de l'API Custom Entity

Supposons que vous souhaitez entraîner un modèle d'extraction d'entités personnalisées pour extraire 10 entités personnalisées d'une demande de crédit immobilier. Cent clients soumettent leur demande chaque jour, comportant chacune un document PDF scanné de 10 pages qui contient 2 500 caractères par page. Avec Amazon Textract, supposons que nous devons extraire du texte de chaque page traitée avant d'extraire des entités à l'aide de l'API Detect Document Text. L'entraînement du modèle personnalisé prend une heure, et vous prévoyez conserver ce modèle pendant un mois. Ainsi, l'entraînement du modèle vous coûte 3 USD et les frais de stockage du modèle s'élèvent à 0,50 USD par mois. Supposons également que vous utilisez le service depuis plus d'un an et que vous ne pouvez pas bénéficier de l'offre gratuite. Pour extraire les entités personnalisées de façon asynchrone, vous payez en fonction du nombre de caractères dans vos documents. Pour extraire les entités en temps réel, vous allouez un point de terminaison avec un débit suffisant pour traiter votre cas d'utilisation, et vous payez la durée de mise en service du point de terminaison.

Calcul du coût d'inférence pour la classification asynchrone :

Taille de chaque demande par jour = 2 500 000 caractères [100 demandes/jour x 10 documents x 2 500 caractères]

Nombre d'unités par demande = 25 000 unités [2 500 000 caractères ÷ 100 caractères par unité]

Prix unitaire = 0,0005 USD

Coût d'inférence total des unités = 12,50 USD [25 000 unités x 0,0005 USD]

Coût Amazon Textract pour l'API Detect Document Text = 1,50 USD [100 demandes/jour x 10 documents x 0,0015 USD par page, jusqu'à 1 000 000 pages]

Coût total = 17,50 USD [12,50 USD (inférence) + 1,50 USD (Textract) + 3 USD (entraînement du modèle) + 0,50 USD (stockage du modèle)]

 

En savoir plus sur les fonctions d'Amazon Comprehend

Consulter la page des fonctions
Prêt à vous lancer ?
S'inscrire
D'autres questions ?
Contactez-nous