Amazon Comprehend ist ein Service der natürlichen Sprachverarbeitung (Natural Language Processing, NLP), der mittels Machine Learning Einblicke aus Ihrem Text gewinnt. Amazon Comprehend stellt APIs für die Schlüsselbegriff-Extraktion, Stimmungsanalyse, Entitätserkennung, Themenmodellierung und Spracherkennung zur Verfügung, sodass Sie NLP ganz einfach in Ihre Anwendungen integrieren können. Dazu rufen Sie einfach die Amazon Comprehend-APIs in Ihrer Anwendung auf und geben den Speicherort des Quelldokuments oder -texts an. Die APIs geben die Entitäten, die wichtigen Phrasen, die Stimmung und die Sprache im JSON-Format aus, das Sie in Ihrer Anwendung verwenden können.
Schlüsselphrasenextraktion
Die Schlüsselphrasenextraktions-API gibt Schlüsselphrasen oder Sprachpunkte wieder und weist einen Zuversichtlichkeitswert zu, um sicherzustellen, dass es sich um eine Schlüsselphrase handelt.
-
Beispiel: In diesem Beispiel vergleicht ein Kunde eine DSLR-Kamera mit einer Instant-Film-Kamera. Die API extrahiert Schlüsselphrasen und gibt einen Zuverlässigkeitswert als Ergebnis aus.
Beispieltext: Ich bin ein begeisterter Fotograf und man sieht mich meistens, wie ich meine DSLR-Kamera oder meine Instant-Film-Kamera dazu nutze, private Fotos zu machen. Meine DSLR ist in Sachen Leistung und Benutzerfreundlichkeit unschlagbar, aber meine Instant-Film-Kamera hat einfach etwas Magisches. Vielleicht liegt es daran, dass man seine Aufnahmen tatsächlich auf Film bannt oder dass jedes Foto ein einzigartiges, greifbares Artefakt ist (was in der Welt heute, in der Instagram und Facebook die Macht übernommen und Millionen Fotos durch das Internet kursieren, schon etwas Besonderes ist). Ich weiß nur, dass es mir eine Menge Spaß macht, damit zu arbeiten, und das Funkeln in den Augen der Leute, wenn man so ein Foto auf einer Party aus dem Ärmel zaubert, ist einfach unbezahlbar.
Schlüsselphrase Zuverlässigkeit ein begeisterter Fotograf 0,99
meine DSLR 0,97 meine Instant-Film-Kamera 0,99
private Fotos 0,99
Leistung und Benutzerfreundlichkeit 0,94 tatsächlich auf Film 0,99 jedes Foto 0,92 ein einzigartiges, greifbares Artefakt 0,99
heute 0,91 Welt 0,99
Instagram und Facebook 0,99
Stimmungsanalyse
Die Stimmungsanalyse-API gibt die allgemeine Stimmung eines Texts (positiv, negativ, neutral oder gemischt) wieder.
-
Beispiel: In diesem Beispiel postet ein Kunde sein Feedback zu einem Paar Schuhe. Die API identifiziert die Stimmung des Kunden und gibt einen Zuversichtlichkeitswert aus.
Beispieltext: Ich habe eine kleine Größe bestellt und erwartet, dass der Schuh perfekt passt, aber er war viel zu groß. Die Qualität war ausgezeichnet. Das Braun ist etwas heller als auf dem Bild, kommt aber nah ran. Wäre zehnmal besser, wenn die Innenseite mit Baumwolle oder Wolle gefüttert wäre.
Stimmung Anzahl Gemischt 0,89 Positiv 0,09 Negativ 0,01 Neutral 0,00
Syntaxanalyse
Die Amazon Comprehend Syntax-API bietet Kunden die Möglichkeit, Text mithilfe von Aufgliederung in Token und Parts of Speech (PoS) zu analysieren und Wortgrenzen und Bezeichnungen wie Substantive und Adjektive im Text zu erkennen.
-
Beispiel: In diesem Beispiel analysieren wir ein kurzes Dokument mit der Comprehend Syntax-API. Die Syntax-API tokenisiert Text (durch Definieren von Wortgrenzen) und kennzeichnet jedes Wort mit dem jeweiligen Sprachelement, z. B. Substantiv oder Verb. Neben der Erkennung des Start- und End-Offsets, der angibt, wo sich das Wort im Text befindet, wird auch die Wahrscheinlichkeit der Treffsicherheit bewertet.
Beispieltext: Ich liebe meinen schnelles, neues Kindle Fire!
Text Tag Ich Pronomen liebe Verb
meinen Pronomen schnelles Adjektiv , Satzzeichen Neu Adjektiv Kindle Eigenname Fire
Eigenname ! Satzzeichen
Entitätenerkennung
Die Entitätenerkennungs-API gibt die benannten Entitäten ("Menschen", "Plätze", "Orte" usw.), welche automatisch aufgrund des gegebenen Textes kategorisiert werden, wieder.
-
Beispiel: In diesem Beispiel sehen wir uns eine Unternehmensbeschreibung an. Die API identifiziert Entitäten wie Organisation, Datum und Ort und gibt einen Zuverlässigkeitswert zurück.
Beispieltext: Amazon.com, Inc. hat seinen Hauptsitz in Seattle, WA und wurde am 5. Juli 1994 von Jeff Bezos gegründet. Kunden können hier von Büchern bis zu Mixern alles kaufen. Seattle befindet sich nördlich von Portland und südlich von Vancouver, BC. Andere nennenswerte Unternehmen, die in Seattle angesiedelt sind, sind Starbucks und Boeing.
Entität Kategorie Zuverlässigkeit Amazon.com, Inc.
Organisation 0,96 Seattle, WA Ort 0,96 5. Juli 1994 Datum 0,99 Jeff Bezos Person 0,99 Seattle
Ort 0,98 Portland
Ort 0,99 Vancouver, BC Ort 0,97 Starbucks
Organisation 0,91 Boeing
Organisation 0,99
Comprehend Medical
NERe (Medical Named Entity and Relationship Extraction)
Die Medical NERe-API gibt die medizinischen Informationen wie Medikamente, Beschwerden, Tests, Behandlungen und Verfahren (TTP), Anatomie und PHI (Protected Health Information) zurück. Sie identifiziert auch Beziehungen zwischen extrahierten Subtypen, die mit Medikamenten und TTP verbunden sind. Es gibt auch kontextuelle Informationen, die als Entity-Eigenschaften zur Verfügung gestellt werden (Negation, oder wenn eine Diagnose ein Zeichen oder Symptom ist). Die folgende Tabelle zeigt die extrahierten Informationen mit den relevanten Subtypen und Entity-Eigenschaften.
Um nur PHI zu extrahieren, können Sie die PHId (Protected Health Information Data Identification)-API verwenden.
-
Beispiel: In diesem Beispiel betrachten wir die Aufnahmebestätigung. Die API identifiziert medizinische Informationen und gibt einen Vertrauenswert zurück.
Beispieltext: Herr Smith ist ein 63-jähriger Herr mit koronarer Herzkrankheit und Bluthochdruck. AKTUELLE MEDIKATIONEN: Nehmen Sie eine Dosis von LIPITOR 20 mg einmal täglich.
Verknüpfung von medizinischen Ontologien
Die Verknüpfungs-APIs von medizinischen Ontologien identifizieren medizinische Daten und verknüpfen diese mit Codes und Konzepten von medizinischen Standard-Ontologien. Erkrankungen werden mit ICD-10-CM-Codes der InferICD10CM-API verknüpft (Beispiel: "Kopfschmerzen" werden mit dem Code "R51" verknüpft), während Medikamente mit RxNorm-Codes verknüpft werden ("Acetaminophine/Codeine" wird mit "C2341132" verknüpft). Die Verknüpfungs-APIs von medizinischen Ontologien erkennen zudem kontextuelle Informationen als Entity-Eigenschaften (z. B. Negation).
Benutzerdefinierte Entitäten
Mit benutzerdefinierten Entitäten können Sie Amazon Comprehend so anpassen, dass Begriffe erkannt werden, die für Ihre Domäne spezifisch sind. Mithilfe von AutoML lernt Comprehend aus einem kleinen privaten Beispielindex (z. B. einer Liste mit Policennummern und Text, in dem diese verwendet werden) und gibt diese Informationen an ein privates, benutzerdefiniertes Modell weiter, so dass diese Begriffe auch in jedem anderen Textblock erkannt werden. Es brauchen keine Server verwaltet und keine Algorithmen beherrscht zu werden.
-
Beispiel: In diesem Beispiel möchte eine Versicherungsgesellschaft Textdokumente auf Entitäten analysieren, die für ihre Branche spezifisch sind: Policenummern.
Beispieltext: Guten Tag, ich heiße Sam Ford und möchte meine Ansprüche aus einem Autounfall geltend machen. Mein Policen-Code ist 456-YQT.
Entität Kategorie Count Zuverlässigkeit 456-YQT Policy_ID 1 0.95
Spracherkennung
Die Spracherkennungs-API identifiziert automatisch die Sprache eines Texts (100 Sprachen verfügbar) und gibt die dominante Sprache mit einem Zuversichtlichkeitswert wieder.
-
Beispiel:In diesem Beispiel analysiert die API den Text, identifiziert die dominante Sprache im Text als Italienisch und gibt einen Zuversichtlichkeitswert wieder.
Beispieltext: Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
ISO-639-1-Sprachcode Sprache Zuverlässigkeit it Italienisch 1,0
Benutzerdefinierte Klassifizierung
Die API Benutzerdefinierte Klassifizierung ermöglicht es Ihnen einfach benutzerdefinierte Textklassifizierungs-Modelle zu erstellen, mithilfe Ihrer Branchenspezifischen Bezeichnungen, ohne ML erlernen zu müssen. Ihre Kundensupport-Organisation kann beispielsweise benutzerdefinierte Klassifizierungen verwenden, um automatisch eingehende Anforderungen nach Art des Problems kategorisieren, basierend darauf wie der Kunde das Problem beschrieben hat. Ein benutzerdefiniertes Modell zu erstellen ist einfach. Sie können Textbeispiele für jede Bezeichnung, die Sie nutzen möchten, zur Verfügung stellen, und Comprehend lernt an diesen, um Ihr benutzerdefiniertes Modell zu erstellen. Es wir keine Erfahrung in Machine Learning benötigt, Sie können Ihr benutzerdefiniertes Modell ohne eine einzelne Zeile an Code erstellen. Eine SDK steht zur Verfügung, um Ihr Kunden-Klassifizierungstool in Ihre derzeitigen Anwendungen zu integrieren. Mit Ihrem benutzerdefinierten Modell ist es einfach Website-Kommentare zu moderieren, Kundenfeedback zu vorselektieren und Arbeitsgruppen-Dokumente zu organisieren. Weitere Informationen finden Sie auf dieser Dokumentationsseite.
-
Beispiel: Sagen wir, Sie möchten Ihr Kundensupport-Feedback einer Fluggesellschaft organisieren. Sie möchten jedes einzelne Feedback in Kontoanfragen, Ticket-Rückerstattungen und Flugbeschwerden einteilen. Um den Service zu trainieren, erstellen Sie eine CSV-Datei, die Beispieltext von jeder Art von Problem enthält, und bezeichnen jedes Beispiel mit einem der vier anzuwendenden Bezeichnungen. Der Service trainiert automatisch ein benutzerdefiniertes Modell für Sie. Um Ihr Modell zu nutzen, um alle Anrufe des nächsten Tages zu analysieren, reichen Sie jede Textdatei an den Service weiter und erhalten die Ergebnisse der Bezeichnung, zusammen mit einer Zuversichtlichkeitsbewertung für jede Bezeichnungsübereinstimmung.
Text Beschreibung Zuversichtlichkeitsbewertung Zeile 0 Kontoanfrage 0,92 Zeile 1 Ticket-Rückerstattung 1 Zeile 2 Flugbeschwerde 1 Zeile 3 Flugbeschwerde 0,91 Doc5.csv Ticket-Rückerstattung 1
Topic-Modellierung
Die Topic-Modellierung identifiziert relevante Begriffe oder Themen aus einer Sammlung von Dokumenten, die in Amazon S3 gespeichert ist. Es identifiziert die am häufigsten vorkommenden Themen in der Sammlung und ordnet sie in Gruppen an, bevor es feststellt, welche Dokumente zu welchem Thema gehören.
-
Beispiel: Wenn Ihre Dokumente (Doc1.txt, Doc2.txt, Doc3.txt und Doc4.txt) in Amazon S3 gespeichert werden und Sie Amazon Comprehend den Speicherort angeben, analysiert Comprehend die Dokumente und gibt zwei Ansichten wieder:
1. Gruppieren der Schlüsselwörter, die Themen darstellen.
Jede Gruppe von Schlüsselwörtern ist mit einer Themengruppe verbunden. Die Gewichtung hängt von der Häufigkeit des Schlüsselworts in der Gruppe ab. Schlüsselwörter, deren Gewichtung am nächsten an 1 liegt, geben am meisten Aufschluss über den Kontext der Themengruppe.Themengruppe Schlüsselwörter Gewicht 1 Amazon 0,87 1 Seattle 0,65 2 Feiertage 0,78 2 shoppen 0,67 Jede Gruppe von Schlüsselwörtern ist mit einer Themengruppe verbunden. Die Gewichtung hängt von der Häufigkeit des Schlüsselworts in der Gruppe ab. Schlüsselwörter, deren Gewichtung am nächsten an 1 liegt, geben am meisten Aufschluss über den Kontext der Themengruppe.2. Gruppieren der Dokumente nach Themen.
Do Themengruppe Ver Doc1.txt 1 0,87 Doc2.txt 1 0,65 Doc3.txt 2 0,78 Doc4.txt 2 0,67 Jedes Dokument wird einer Themengruppe zugeordnet. Entscheidend ist hierbei das Verhältnis der gewichteten Schlüsselwörter einer Themengruppe, die im Dokument vorhanden sind.
Support mehrerer Sprachen
Amazon Comprehend kann eine Textanalyse für englisch-, französisch-, deutsch-, italienisch-, portugisisch- und spanischsprachige Texte durchführen. So können Sie Anwendungen entwickeln, die Text in mehreren Sprachen erkennen. Dann können Sie den Text mit Amazon Translate ins Englische oder Spanische übersetzen lassen und danach eine Textanalyse mit Amazon Comprehend durchführen.
Weitere Informationen zu den Amazon Comprehend-Preisen