Was ist Textanalyse?

Unter Textanalyse versteht man den Vorgang, bei dem Computersysteme verwendet werden, um von Menschen geschriebene Texte zu lesen und zu verstehen und anschließend Geschäftserkenntnisse daraus zu gewinnen. Textanalyse-Software kann auf unabhängige Weise Informationen aus Texten klassifizieren, sortieren und extrahieren, um Muster, Beziehungen, Stimmungen zu identifizieren und weitere verwertbare Erkenntnisse zu gewinnen. Sie können die Textanalyse verwenden, um mehrere textbasierte Quellen wie E-Mails, Dokumente, Inhalte sozialer Medien und Produktprüfungen effizient und genau zu prüfen – so, wie es auch ein Mensch tun würde.

Warum ist die Textanalyse wichtig?

Unternehmen nutzen die Textanalyse zum Extrahieren von direkt umsetzbaren Erkenntnissen von verschiedenen nicht strukturierten Datenquellen. Diese sind abhängig vom Feedback von Quellen wie E-Mails, Soziale Medien und Antworten aus Verbraucherumfragen, das die Entscheidungsfindung unterstützt. Jedoch ist das große Textvolumen von solchen Quellen ohne Textanalyse-Software überwältigend.

Mit der Textanalyse können Sie genaue Informationen von diesen Quellen schneller erhalten. Der Prozess ist vollständig automatisiert und beständig und zeigt Daten an, die Ihnen konkrete Maßnahmen ermöglichen. Beispielsweise ermöglicht ihnen die Nutzung der Textanalyse-Software die sofortige Erkennung negativer Stimmungen in den Beträgen auf Sozialen Medien, damit sie an der Lösung des Problems arbeiten können

Stimmungsanalyse

Die Stimmungsanalyse oder Opinion Mining verwendet Textanalyse-Methoden, um die in einem Text vermittelte Meinung zu verstehen. Die Stimmungsanalyse kann für Rezensionen, Blogs, Foren und sonstigen Online-Medien verwendet werden, um festzustellen, ob Ihre Kunden mit den Käufen zufrieden sind. Die Stimmunganalyse hilft Ihnen dabei, neue Trends zu entdecken, Stimmungsänderungen nachzuverfolgen und Probleme in der Öffentlichkeitsarbeit anzugehen. Durch Nutzung der Stimmungsanalyse und Identifizierung von bestimmten Schlüsselwörtern können Sie Änderungen der Kundenmeinungen nachverfolgen und die Hauptursachen des Problems feststellen. 

Aktenverwaltung

Die Textanalyse führt zur effizienten Verwaltung, Kategorisierung und Suchvorgängen in Dokumenten. Dazu gehören die Automatisierung der Verwaltung von Patientenakten, Überwachung der Markenerwähnungen und Erkennung von Versicherungsbetrug. Beispielsweise verwendet LexisNexis Legal & Professional die Text-Extraktion, um bestimmte Akten unter 200 Millionen Dokumenten zu identifizieren.

Personalisierung des Kundenerlebnisses

Sie können die Textanalyse-Software zur Verarbeitung von E-Mails, Rezensionen,Chats und sonstigen textbasierten Kommunikationen verwenden. Mit Erkenntnissen über Kundenpräferenzen, Kaufgewohnheiten und Markenwahrnehmung insgesamt können Sie personalisierte Erlebnisse für verschiedene Kundenabschnitte zuschneiden. 

Wie funktioniert die Textanalyse?

Der Kern der Textanalyse ist das Trainieren der Computer-Software, um Wörter mit bestimmten Bedeutungen zu assoziieren und, um den semantischen Zusammenhang von unstrukturierten Daten zu verstehen. Das ist ungefähr so, wie Menschen eine neue Sprache lernen, indem Wörter mit Objekten, Aktionen und Emotionen in Zusammenhang gebracht werden. 

Die Textanalyse-Software arbeitet mit den Grundsätzen des Deep Learning und der natürlichen Sprachverarbeitung.

Deep Learning

Die Künstliche Intelligenz ist der Bereich der Datenwissenschaft, die den Computer beibringt, so wie der Mensch zu denken. Machine Learning ist eine Technik innerhalb der künstlichen Intelligenz, die bestimmte Methoden zum Unterrichten oder Trainieren von Computern anwendet. Deep Learning ist eine sehr spezialisierte Machine-Learning-Methode, die neuronale Netzwerke oder Software-Strukturen verwendet, die das menschliche Gehirn imitieren. Deep-Learning-Technologie treibt die Textanalyse-Software an, sodass diese Netzwerke Text auf ähnlicher Weise wie das menschliche Gehirn lesen können.

Natürliche Sprachverarbeitung

Die natürliche Sprachverarbeitung (NLP) ist ein Bereich der künstlichen Intelligenz, der Computern die Fähigkeit gibt, automatisch Bedeutung von natürlichem, vom Menschen erstellten Text abzuleiten. NLP verwendet linguistische Modelle und Statistiken, um die Deep Learning-Technologie so zu trainieren, dass sie Textdaten verarbeitet und analysiert, einschließlich Bilder von handgeschriebenem Text. NLP-Methoden wie die optische Zeichenerkennung (OCR) wandelt Textbilder in Textdokumente um, indem sie nach den Wörtern in den Bildern sucht und sie versteht.

Welche Techniken gibt es zur Textanalyse?

Die Textanalyse-Software nutzt diese häufig vorkommenden Techniken.

Textklassifizierung

In der Textklassifizierung lernt die Textanalyse-Software, bestimmte Schlüsselwörter bestimmten Themen, Benutzerabsichten oder Stimmungen zuzuordnen. Dies geschieht anhand der folgenden Methoden: 

  • Regelbasierte Klassifizierung ordnet dem Text Markierungen anhand von vorher festgelegten Regeln für semantische Komponente oder syntaktische Muster zu.
  • Auf Machine Learning basierende Systeme arbeiten, indem sie die Textanalyse-Software mit Beispielen trainieren und Ihre Genauigkeit mit Markierungen im Text erhöhen. Sie verwenden linguistische Modelle wie Naive Bayes, Support Vector Machines und Deep Learning, um strukturierte Daten zu verarbeiten, Wörter zu kategorisieren und ein semantisches Verständnis zwischen ihnen zu entwickeln.

Beispielsweise enthält eine positive Rezension Wörter wie gut, schnell und toll. Jedoch enthalten negative Rezensionen ggf. Wörter wie unzufrieden, langsam, und schlecht. Datenwissenschaftler trainieren die Textanalyse-Software, um nach solchen bestimmten Begriffen zu suchen und die Rezensionen als positiv oder negativ zu kategorisieren. Auf diese Weise kann das Support-Team die Kundenstimmung leicht anhand der Rezensionen überwachen.

Text-Extraktion

Die Text-Extraktion scannt den Text und extrahiert daraus wichtige Informationen. Sie kann Schlüsselwörter, Produktattribute, Markennamen, Ortsnamen und mehr in einem Text erkennen. Die Extraktionssoftware wendet die folgenden Methoden an:

  • Regular Expression (REGEX): Das ist ein formatiertes Feld von Symbolen, das als Voraussetzung dafür gilt, was zu extrahieren ist.
  • Conditional Random Fields (CRFs): Dies ist eine Machine-Learning-Methode, die Text extrahiert, indem bestimmte Muster oder Phrasen bewertet werden. Es ist feiner und flexibler als REGEX. 

Beispielsweise können Sie die Text-Extraktion verwenden, um Markenerwähnungen auf Sozialen Medien zu überwachen. Die manuelle Nachverfolgung jeder einzelnen Erwähnung Ihrer Marke auf Sozialen Medien ist unmöglich. Die Text-Extraktion weist Sie auf Erwähnungen Ihrer Marke in Echtzeit hin. 

Themen-Modellierung

Die Methoden zur Themen-Modellierung identifizieren und gruppieren Schlüsselwörter, die in einem unstrukturierten Text vorkommen, in ein Thema. Diese Methoden können mehrere Textdokumente lesen und sie anhand der Häufigkeit der verschiedenen Wörter im Dokument in Themen sortieren. Die Methoden der Themen-Modellierung geben mehr Kontext für eine weitere Analyse der Dokumente.

Beispielsweise können Sie die Methoden zur Themen-Modellierung verwenden, um durch das Archiv Ihrer gescannten Dokumente zu lesen und Dokumente in Rechnungen, Rechtsdokumente und Kundenvereinbarungen zu klassifizieren. Anschließend können Sie verschiedene Analysemethoden bei Rechnungen ausführen, um finanzielle Erkenntnisse zu gewinnen oder bei Kundenvereinbarungen, um Kundenerkenntnisse zu gewinnen.

PII-Redaktion

Die PII-Redaktion erkennt automatisch persönlich identifizierbare Informationen (PII) wie Namen, Adressen, oder Kontonummern von einem Dokument und entfernt sie. Die PII-Redaktion hilft Ihnen, die Privatsphäre zu schützen und lokale Gesetze und Vorschriften einzuhalten.

Beispielsweise können Sie Support-Tickets und Wissensartikel analysieren, um PII zu erkennen und den Text zu redigieren, bevor Sie die Dokumente in der Suchlösung indizieren. Danach sind Suchlösungen frei von PII in Dokumenten.

Was sind die Phasen in der Textanalyse?

Zur Implementierung der Textanalyse müssen Sie einen systematischen Prozess befolgen, der in vier Phasen ausgeführt wird.

Phase 1 – Datensammlung

In dieser Phase sammeln Sie Textdaten von internen und externen Quellen.

Interne Daten

Interne Daten sind Textinhalte, die intern in Ihrem Unternehmen aufbewahrt werden und jederzeit verfügbar sind – beispielsweise E-Mails, Chats, Rechnungen und Mitarbieterumfragen. 

Externe Daten

Sie können externe Daten in Quellen wie Social Media-Beiträge, Online-Rezensionen, Nachrichtenartikel und Online-Foren finden. Es ist schwieriger, externe Daten zu erfassen, da man sie nicht kontrollieren kann. Sie müssen ggf. Web-Scaping-Tools verwenden oder mit Lösungen von Dritten integrieren, um externe Daten extrahieren zu können.

Schritt 2 – Datenaufbereitung

Die Datenaufbereitung ist ein wichtiger Teil der Textanalyse. Dazu gehört die Strukturierung von Rohdaten in ein akzeptables Format zur Analyse. Die Textanalyse-Software automatisiert den Prozess und es werden die folgenden häufig vorkommenden Methoden der natürlichen Sprachverarbeitung (NLP) angewendet. 

Aufgliederung in Token

Die Aufgliederung in Token ist die Trennung von Rohdaten in mehrere Teile, die einen semantischen Sinn ergeben. Beispielsweise wird der Ausdruck Textanalytik ist für Unternehmen von Vorteil in die Wörter Text, Analytik, Vorteil und Unternehmen aufgegliedert.

Part-of-Speech-Markierung

Die Part-of-Speech-Markierung weist dem in Token aufgegliederten Text grammatikalische Tags zu. Beispielsweise führt die Anwendung dieses Schritts an die vorher erwähnten Tokens zu Text: Nomen; Analytik: Nomen; Vorteil: Verb; Unternehmen: Nomen.

Parsing

Parsing stellt bedeutungsvolle Verbindungen zwischen den in Token aufgegliederten Wörtern und der Grammatik der Sprache her. Das hilft der Textanalyse-Software dabei, die Beziehung zwischen Wörtern zu visualisieren. 

Lemmatisierung 

Lemmatisierung ist ein linguistischer Prozess, der Wörter in ihre Wörterbuchform, oder Lemma, vereinfacht. Beispielsweise lautet die Wörterbuchform von visualisierend visualisieren.

Entfernen von Stoppwörtern

Stoppwörter sind Wörter, die nur wenig oder gar keinen Kontext in einem Satz zur Verfügung stellen, wie und, oder und für. Abhängig vom Anwendungsfall ist es möglich, dass die Software sie aus dem strukturierten Text entfernt. 

Phase 3 – Textanalyse

Die Textanalyse ist der Kernteil dieses Prozesses, in dem die Textanalyse-Software den Text anhand verschiedener Methoden verarbeitet. 

Textklassifizierung

Die Klassifizierung ist der Prozess der Zuweisung von Tags zu den Textdaten anhand von Regeln oder Machine-Learning-basierten Systemen.

Text-Extraktion

Bei der Extraktion geht es um die Identifizierung von bestimmten Schlüsselwörtern im Text, um ihnen Tags zuzuordnen. Die Software verwendet dazu Methoden wie Regular Expressions (reguläre Ausdrücke) und Conditional Random Fields (CRF).

Phase 4 – Visualisierung

Bei der Visualisierung geht um die Umwandlung von den Textanalyse-Ergebnissen in ein leicht verständliches Format. Textanalytik-Ergebnisse befinden sich in Grafiken, Diagrammen und Tabellen. Die visualisierten Ergebnisse helfen Ihnen bei der Identifizierung von Mustern und Trends und beim Entwickeln von Aktionsplänen. Beispiel: Angenommen, es gibt einen Anstieg der Rücksendungen von Produkten, aber es ist schwierig, die Ursachen festzustellen. Mit der Visualisierung suchen Sie nach Wörtern wie Defekte, falsche Größe, oder schlechte Passform im Feedback und tabellieren Sie sie in einer Grafik. Dann wissen Sie, was das Hauptproblem ist, das oberste Priorität hat. 

Was ist Textanalytik?

Textanalytik bezieht sich auf die quantitativen Daten, die Sie gewinnen können, indem Sie Muster in mehrfachen Textbeispielen analysieren. Sie werden in Diagrammen, Tabellen oder Grafiken dargestellt. 

Textanalyse vs. Textanalytik

Die Textanalytik hilft Ihnen dabei, aus der Analyse von Tausenden Feedback-Meldungen zu bestimmen, ob es einen bestimmten Trend oder ein bestimmtes Muster gibt. Sie können die Textanalyse verwenden, um festzustellen, ob das Feedback eines einzelnen Kunden positiv oder negativ ist.

Was ist Text-Mining?

Text-Mining ist der Prozess der Gewinnung qualitativer Erkenntnisse durch die Analyse von unstrukturiertem Text. 

Textanalyse vs. Text-Mining

Es gibt keinen Unterschied zwischen der Textanalyse und dem Text-Mining. Beide Begriffe beziehen sich auf den gleichen Prozess der Gewinnung von wertvollen Erkenntnissen aus Quellen wie E-Mail, Umfrageantworten und Feeds von Sozialen Medien.

Wie kann Amazon Comprehend helfen?

Amazon Comprehend ist ein Service der natürlichen Sprachverarbeitung (NLP), der Machine Learning nutzt, um aus Texten wertvolle Erkenntnisse zu gewinnen und Zusammenhänge zu entdecken. Sie können den Service verwenden um automatisch Informationen aus Dokumentenverarbeitungs-Workflows zu extrahieren und zu klassifizieren und diese somit zu vereinfachen. Zum Beispiel können Sie Amazon Comprehend zur Ausführung der folgenden Ausgaben verwenden:

  • Ausführung von Stimmungsanalyse bei Kundensupport-Tickets, Produkt-Rezensionen, Feeds von sozialen Medien und mehr. 
  • Integrieren Sie Amazon Comprehend mit Amazon Lex zur Entwicklung eines intelligenten, dialogorientierten Chatbots.
  • Extrahieren Sie medizinische Begriffe aus Dokumenten und identifizieren Sie die Beziehung zwischen ihnen mit Amazon Comprehend Medical.

Beginnen Sie heute noch mit den ersten Schritten, indem Sie ein AWS-Konto erstellen.

Nächste Schritte in AWS