Was ist Datenbereinigung?

Die Datenbereinigung ist ein wesentlicher Prozess zur Vorbereitung von Rohdaten für Machine Learning (ML)- und Business Intelligence (BI)-Anwendungen. Rohdaten können zahlreiche Fehler enthalten, die die Genauigkeit von ML-Modellen beeinträchtigen und zu falschen Vorhersagen und negativen Auswirkungen auf ein Unternehmen führen können. 

Zu den wichtigsten Schritten der Datenbereinigung gehören das Ändern und Entfernen falscher und unvollständiger Datenfelder, das Identifizieren und Entfernen doppelter Informationen und nicht verwandter Daten sowie das Korrigieren von Formatierungs-, fehlenden Werten und Rechtschreibfehlern.

Warum ist Datenbereinigung wichtig?

Wenn ein Unternehmen Daten zur Entscheidungsfindung nutzt, ist es wichtig, dass es relevante, vollständige und genaue Daten verwendet. Datensätze enthalten jedoch oft Fehler, die vor der Analyse entfernt werden müssen. Die Datensätze können Formatierungsfehler enthalten, wie z. B. falsch geschriebene Datumsangaben sowie Geld- und andere Maßeinheiten, die die Vorhersagen erheblich beeinträchtigen können. Ausreißer sind ein besonderes Problem, da sie die Ergebnisse unweigerlich verzerren. Andere häufig auftretende Datenfehler sind beschädigte Datenpunkte, fehlende Informationen und Tippfehler. Saubere Daten können bei hochpräzisen ML-Modellen helfen. 

Saubere und genaue Daten sind besonders wichtig für das Training von ML-Modellen, da die Verwendung schlechter Trainingsdatensätze zu fehlerhaften Vorhersagen in den eingesetzten Modellen führen kann. Dies ist der Hauptgrund, warum Datenwissenschaftler einen so großen Teil ihrer Zeit mit der Vorbereitung von Daten für ML verbringen.

Wie überprüfen Sie, ob Ihre Daten sauber sind?

Der Datenbereinigungsprozess umfasst mehrere Schritte, um problematische Einträge zu identifizieren und zu korrigieren. Der erste Schritt besteht darin, die Daten zu analysieren, um Fehler zu erkennen. Dies kann die Verwendung qualitativer Analysetools beinhalten, die Regeln, Muster und Einschränkungen verwenden, um ungültige Werte zu identifizieren. Der nächste Schritt besteht darin, Fehler zu entfernen oder zu korrigieren. 

Zu den üblichen Schritten der Datenbereinigung gehört die Beseitigung von:

  • Doppelten Daten: Doppelte Informationen werden gelöscht
  • Irrelevanten Daten: Identifizieren Sie kritische Felder für die jeweilige Analyse und lassen Sie irrelevante Daten aus der Analyse heraus.
  • Ausreißern: Ausreißer können die Leistung des Modells drastisch beeinträchtigen. Identifizieren Sie daher Ausreißer und legen Sie geeignete Maßnahmen fest.
  • Fehlenden Daten: Löschen, markieren oder imputieren Sie fehlende Daten.
  • Strukturellen Fehler: Korrigieren Sie Tippfehler und andere Unstimmigkeiten und passen Sie die Daten an ein gemeinsames Muster oder eine Konvention an.

Wie AWS bei der Datenbereinigung helfen kann

Amazon SageMaker Data Wrangler ist eine Funktion von Amazon SageMaker, mit der Sie Daten schnell und einfach für ML vorbereiten können. Mit Amazon SageMaker Data Wrangler können Sie jeden Schritt des Datenaufbereitungs-Arbeitsprozess, einschließlich der Datenauswahl, -bereinigung, -erkundung, Verzerrungserkennung und Visualisierung, über eine einzige visuelle Oberfläche abschließen.

Mit dem Datenauswahl-Tool von SageMaker Data Wrangler können Sie die gewünschten Daten aus verschiedenen Datenquellen auswählen und mit einem einzigen Klick importieren. Sobald die Daten importiert sind, können Sie den Datenqualitäts- und Erkenntnisbericht verwenden, um die Datenqualität automatisch zu überprüfen und Anomalien wie doppelte Zeilen und Zielverluste zu erkennen. SageMaker Data Wrangler enthält über 300 integrierte Datenumwandlungen, so dass Sie schnell Funktionen normalisieren, umwandeln, und kombinieren können, ohne Codes schreiben zu müssen.

Für die ersten Schritte mit SageMaker Data Wrangler sehen Sie sich das Tutorial an.

Datenbereinigung – Nächste Schritte

Zusätzliche produktbezogene Ressourcen ansehen
Mehr über Machine-Learning-Services erfahren 
Ein kostenloses Konto erstellen

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren 
Mit der Entwicklung in der Konsole starten

Starten Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmelden