Überspringen zum Hauptinhalt

Was sind Data-Mining-Techniken?

Data-Mining-Techniken ermöglichen es Unternehmen, subtile Muster und Zusammenhänge in ihren Daten zu enthüllen. Sie wandeln Rohdaten in praktisches Wissen um, das zur Lösung von Problemen, zur Analyse der zukünftigen Auswirkungen von Geschäftsentscheidungen und zur Erhöhung der Gewinnmargen verwendet werden kann. In diesem Handbuch werden verschiedene Data-Mining-Techniken und deren Implementierung in AWS beschrieben.

Unternehmen speichern und verarbeiten große Informationsmengen aus verschiedenen Geschäftsprozessen. Data Mining hilft ihnen dabei, mithilfe von Datenmodellierung und prädiktiver Analytik wertvolle Erkenntnisse aus historischen Daten zu gewinnen. Modernes Data Mining nutzt häufig Technologien der künstlichen Intelligenz und des Machine Learning (KI/ML), um Geschäftserkenntnisse zu beschleunigen und bessere Ergebnisse zu erzielen.

Unternehmen stehen jedoch vor Herausforderungen, wenn sie die Wissensentdeckung mit einer lokalen Infrastruktur durchführen. Insbesondere müssen sie Data-Mining-Tools mit verschiedenen Datenquellen integrieren, Verbindungen zu Drittanbieteranwendungen herstellen und verschiedene Interessengruppen über die Ergebnisse informieren, was herkömmliche Infrastrukturen mit hohen Kosten tun.

AWS bietet verwaltete Services an, mit denen Unternehmen ihren Data-Mining-Prozess in der Cloud skalieren können. Wir kombinieren leistungsstarke Data-Mining-Funktionen, Fachwissen in generativer KI und bewährte Methoden der Daten-Governance mit Amazon SageMaker. Auf diese Weise können Datenwissenschaftler Daten aus verschiedenen Quellen vereinheitlichen, komplexe Datenanalytik-Abfragen ausführen und Daten effektiver anhand von Sicherheitsrichtlinien überwachen.

Unternehmen verbessern nicht nur den Datenfluss, sondern können auch fortschrittliche Analytik kostengünstiger bereitstellen, ohne ihre eigene Infrastruktur bereitstellen zu müssen. So transformierte Lennar beispielsweise seine Datengrundlage mithilfe von Amazon Sagemaker Unified Studio und Amazon Sagemaker Lakehouse, sodass sein Datenteam Geschäftserkenntnisse effektiver ableiten konnte.

Im Folgenden werden verschiedene Data-Mining-Techniken erklärt und erklärt, wie AWS-Tools dabei helfen können.

Wie wird die Datenvorverarbeitung beim Data Mining verwendet?

Durch die Datenvorverarbeitung werden Rohdaten in ein Format umgewandelt, das für neuronale Data-Mining-Netzwerke verständlich ist. Sie ist ein wichtiger Teil des Data Mining, da sie die Leistung des Datenmodells erheblich beeinflusst. Oft können Rohdaten Fehler, Duplikate und fehlende Informationen enthalten, die sich negativ auf das Ergebnis des Modells auswirken können. Mit der Datenvorverarbeitung können Sie die Daten bereinigen und solche Anomalien entfernen. Darüber hinaus können Datenwissenschaftler bestimmte Features auswählen, die zu Geschäftserkenntnissen beitragen und unnötige Informationen eliminieren. Wenn Sie beispielsweise die Kundenabwanderung prognostizieren, wählen Sie Features wie die durchschnittliche monatliche Nutzung, das Datum der letzten Anmeldung und die Häufigkeit von Support-Anfragen aus. Wir bezeichnen diese Features als Engineering, mit der Sie die für das Data Mining erforderlichen Rechenressourcen reduzieren können.

Amazon SageMaker Data Wrangler ist ein Tool zur Datenvorbereitung, mit dem Sie die Datenqualität und damit die Analytikergebnisse verbessern können. Sie können Amazon SageMaker Data Wrangler für verschiedene Datenquellen verwenden, die mit Ihrer Data Pipeline verbunden sind. Anstatt stundenlang Daten zu bereinigen, erledigt Amazon SageMaker Data Wrangler das dank seines No-Code-Ansatzes in wenigen Minuten. So bereiten Sie Daten für Ihr Machine-Learning-Modell mit SageMaker Data Wrangler vor.

Schritt 1 – Auswählen und Abfragen

Verwenden Sie den Visual Query Builder, um auf Text-, Bild- und Tabellendaten in AWS- und Drittanbieterspeichern zuzugreifen und diese abzurufen. Wenden Sie dann die Erkenntnisse in Datenqualitätsberichten an, um Anomalien wie Ausreißer, Klassenungleichgewichte und Datenlecks zu erkennen.

Schritt 2 – Reinigen und bereichern

Transformieren Sie Ihre Daten mit vorgefertigten PySpark-Transformationen und einer Schnittstelle in natürlicher Sprache. Amazon SageMaker Data Wrangler unterstützt gängige Datentransformationen, einschließlich der Vektorisierung von Text, der Bereitstellung von Datetime-Daten, der Kodierung und dem Abgleich von Daten. Darüber hinaus können Sie ganz einfach benutzerdefinierte Transformationen erstellen, um Ihren Anwendungsfall zu unterstützen.

Schritt 3 – Visualisieren und verstehen

Validieren Sie die mit Grafiken, Diagrammen und anderen visuellen Tools vorbereiteten Daten. Führen Sie dann eine Schnellanalyse durch, um das Ergebnis des Modells zu prognostizieren, bevor Sie es tatsächlich trainieren.

Was ist explorative Datenanalyse?

Explorative Datenanalyse (EDA) ist eine datenwissenschaftliche Technik, die es Datenwissenschaftlern ermöglicht, versteckte Muster zu enthüllen, aussagekräftige Zusammenhänge zu identifizieren und Anomalien in Daten zu erkennen. Oft wird EDA von visuellen Tools wie Histogrammen, Diagrammen und Grafiken geleitet. Der Zweck der EDA basiert auf der Bereitstellung von Leitlinien für die nachfolgende Datenanalyse. Darüber hinaus hilft sie Datenwissenschaftlern dabei, ihr Urteilsvermögen von Annahmen und Vorurteilen zu befreien.

Einfach ausgedrückt: EDA stellt Beweise bereit, die durch statistische Modelle und Techniken wie Zeitreihenanalysen, räumliche Analysen und Streudiagramme beobachtet werden können. Für die Durchführung von EDA ist jedoch eine Reihe von Data-Mining-Tools erforderlich, die auf integrierte Weise zusammenarbeiten müssen. Die Einrichtung kann teuer sein. 

Amazon SageMaker Unified Studio ist eine einzige KI- und Datenplattform, mit der Ihr Team Datenanalytik-Workloads erstellen, bereitstellen und gemeinsam nutzen kann. Sie können es verwenden, um mit vertrauten KI/ML-Tools, Speichern und Analytik von AWS zu arbeiten, darunter Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Amazon Bedrock und Amazon SageMaker AI.

Im Folgenden finden Sie Möglichkeiten, die explorative Datenanalyse (EDA) mit Amazon SageMaker Unified Studio zu beschleunigen.

  • Abonnieren, verwalten und legen Sie Regeln für Datenressourcen fest, die Sie für das Training von Datenanalytik-Modellen verwenden möchten.
  • Fragen Sie Daten ab, die in Data Lakes, Data Warehouses und anderen Quellen gespeichert sind.
  • Erstellen Sie einen Workflow mit einer integrierten visuellen Schnittstelle, um Transformationsmodule zwischen Datenquellen und dem Ziel hinzuzufügen.

Was ist prädiktive Analytik beim Data Mining?

Prädiktive Analytik beim Data Mining nutzen entdeckte Datenmuster, um zukünftige Ergebnisse zu prognostizieren. Zu diesem Zweck werden Daten in Modelle für Machine Learning eingespeist, die auf der Grundlage ihres erlernten Wissens Prognosen treffen, die Unternehmen bei ihren Entscheidungen unterstützen. Finanzunternehmen verwenden beispielsweise prädiktive Analytik, um Markttrends vorherzusagen, Betrug zu erkennen und Kreditrisiken zu bewerten.

Amazon SageMaker Canvas ist ein visuelles Entwicklungstool, mit dem Sie Prognosemodelle in großem Maßstab trainieren, testen und bereitstellen können. Amazon SageMaker Canvas bietet Zugriff auf grundlegende Modelle und benutzerdefinierte Algorithmen für Machine Learning (ML) und ermöglicht die Generierung genauer Prognosen für verschiedene Anwendungsfälle.

Außerdem können Sie mit Amazon Q Developer den gesamten Daten-Workflow mit Konversationssprache erstellen. Amazon Q Developer ist ein generativer KI-Assistent, mit dem Sie Aufgaben des Machine Learning und der Datenanalytik in der Alltagssprache beschreiben können. Anschließend wandelt Amazon Q Developer Ihre Beschreibungen in Abfragen, SQL-Skripts, umsetzbare Schritte, Codeempfehlungen und mehr um, damit Sie effizienter mit KI und Daten arbeiten können.

Im Folgenden finden Sie Modelle, die Sie mit Amazon SageMaker Canvas erstellen und bereitstellen können, um prädiktive Analytik zu ermöglichen.

Klassifizierung

Klassifizierungsmodelle können bisher unbekannten Daten Bezeichnungen zuweisen, die auf Merkmalen basieren, die sie gelernt haben. Beispielsweise kann ein KI-gestütztes Kundensupportsystem Feedback als positiv, negativ oder neutral klassifizieren, indem es Wörter im Gespräch analysiert. Amazon SageMaker Canvas unterstützt Klassifizierungsmodelle für verschiedene Problemtypen, darunter Textklassifizierung, Bildklassifizierung, Anomalieerkennung und Objekterkennung.

Assoziationsregel-Mining

Associationregel-Mining (ARM) entdeckt die Beziehung zwischen Datenpunkten und kann verwendet werden, um eine Pipeline für prädiktive Analytik zu erweitern. Sie können ARM beispielsweise verwenden, um eine Warenkorbanalyse durchzuführen und herauszufinden, welche Artikel häufig zusammen in einem Supermarkt gekauft werden. Amazon SageMaker ermöglicht es Ihnen, Ihre eigenen benutzerdefinierten ARM-Algorithmen mithilfe von Frameworks wie Python zu erstellen und sie in Ihrem KI/ML-Workflow auf AWS bereitzustellen.

Clustering

Clustering unterstützt indirekt prädiktive Analytik, indem Daten, die auf ähnlichen Attributen basieren, gruppiert werden. Beispielsweise können Sie Kunden auf der Grundlage des durchschnittlichen Ausgabenwerts gruppieren. Dann werden die segmentierten Kunden als eines der Merkmale in einem Prognosemodell verwendet. Zum Clustern von Date, verwenden Datenwissenschaftler häufig den K-Means-Algorithmus. Amazon SageMaker verwendet eine modifizierte Version des K-Means-Algorithmus, die genauere Ergebnisse und eine verbesserte Skalierbarkeit liefert.

Anomalieerkennung

Modelle für Machine Learning trainiert werden, um Ausreißer in Datenmustern zu erkennen. Fabriken verwenden beispielsweise Prognosemodelle, um potenzielle Maschinenausfälle zu identifizieren. Die Erkennung von Anomalien unterstützt proaktive Abhilfemaßnahmen, z. B. die Durchführung präventiver Wartungsarbeiten zur Vermeidung von Betriebsunterbrechungen.

Mit Amazon SageMaker können Sie abnormale Muster mit dem Random-Cut-Forest-Algorithmus erkennen, der Daten niedrige (normale) und hohe (abnormale) Werte zuweist.

Was ist Document Mining?

Document Mining ist eine Technik des Machine Learning, bei der Text-, Bild- oder Tabellendaten in Dokumenten erkannt, extrahiert und analysiert werden. Unternehmen können Kosten senken, das Kundenerlebnis verbessern und die betriebliche Effizienz steigern, indem sie Data-Mining-Technologien bei den von ihnen gespeicherten Dokumenten anwenden. Beispielsweise können Anwaltskanzleien mithilfe von Document Mining automatisch bestimmte Klauseln aus Verträgen extrahieren.

Sie können gebrauchsfertige Document-Mining-Modelle mit Amazon SageMaker Canvas anwenden. Diese Modelle sind vortrainiert, was bedeutet, dass Sie sie ohne zusätzliche Feinabstimmung in Ihren Data-Mining-Workflow integrieren können. Nach der Einrichtung analysiert das Modell die Rohdaten in den Dokumenten auf aussagekräftige Muster. Dann extrahiert, kategorisiert oder beschriftet es entsprechend.

Beispielsweise ermöglicht das Modell zur Erkennung persönlicher Informationen die Erkennung von Informationen wie Adressen, Bankkontonummern und Telefonnummern aus Textdaten. In der Zwischenzeit ruft das Ausgabenanalyse-Modell Informationen wie Betrag, Datum und Artikel aus Quittungen und Rechnungen ab.

So wenden Sie Document-Mining-Techniken mit Amazon SageMaker Canvas an.

  1. Erstellen Sie Ihre SageMaker-AI-Domain und aktivieren Sie Canvas gebrauchsfertige Modelle.
  2. Importieren Sie die Dokumentdatensätze, die Sie analysieren möchten. Auf diese Weise können Sie einen Datenfluss erstellen.
  3. Wählen Sie ein Data-Mining-Modell aus, um Prognosen zu generieren. In der Einrichtung können Sie Einzel- oder Batch-Prognosen treffen.

Wie kann AWS bei Data Mining helfen?

Data-Mining-Techniken ermöglichen es Unternehmen, aus den von ihnen generierten Daten wertvolle Erkenntnisse zu gewinnen, sodass sie fundierte Entscheidungen treffen können. Erfolgreiches Data Mining erfordert eine optimierte Data Pipeline die Rohdaten aus verschiedenen Quellen mit leistungsstarken KI/ML-Modellen verbindet.

Die Data Pipeline automatisiert die Datenextraktion, -speicherung, -bereinigung und -transformation, um sicherzustellen, dass nachfolgende Modelle qualitativ hochwertige und genaue Daten erhalten. Anschließend wenden Sie verschiedene Arten von Data-Mining-Techniken an, um aussagekräftige Erkenntnisse abzuleiten.

Erkunden Sie Amazon SageMaker, um komplexe Daten-Workflows zu vereinfachen und prädiktive Erkenntnisse zu erhalten, die bessere Geschäftsergebnisse ermöglichen.