- Was ist Cloud Computing?›
- Hub für Konzepte zum Cloud Computing›
- Machine Learning
Was ist Datenaufbereitung?
Was ist Datenaufbereitung?
Bei der Datenaufbereitung werden die Rohdaten so aufbereitet, dass sie für die weitere Verarbeitung und Analyse geeignet sind. Zu den wichtigsten Schritten gehören das Sammeln, Bereinigen und Kennzeichnen von Rohdaten in einer Form, die für Machine Learning (ML)-Algorithmen geeignet ist, sowie das anschließende Erkunden und Visualisieren der Daten. Die Datenaufbereitung kann bis zu 80 % der Zeit in Anspruch nehmen, die für ein ML-Projekt aufgewendet wird. Die Verwendung spezieller Datenaufbereitungstools ist wichtig, um diesen Prozess zu optimieren.
Was ist die Verbindung zwischen ML und Datenaufbereitung?
Daten fließen durch Unternehmen wie nie zuvor, von Smartphones bis hin zu intelligenten Städten, sowohl in Form von strukturierten Daten als auch von unstrukturierten Daten (Bilder, Dokumente, Geodaten und mehr). Unstrukturierte Daten machen heutzutage 80 % der Daten aus. ML kann nicht nur strukturierte Daten analysieren, sondern auch Muster in unstrukturierten Daten entdecken. ML ist der Prozess, bei dem ein Computer lernt, Daten zu interpretieren und auf der Grundlage dieser Daten Entscheidungen zu treffen und Empfehlungen abzugeben. Während des Lernprozesses – und später, wenn sie zur Erstellung von Prognosen verwendet werden – können falsche, verzerrte oder unvollständige Daten zu ungenauen Prognosen führen.
Warum ist die Datenaufbereitung für ML wichtig?
Daten treiben ML an. Es ist zwar schwierig, diese Daten zu nutzen, um Ihr Unternehmen neu zu erfinden, aber es ist unerlässlich, um jetzt und in Zukunft relevant zu bleiben. Nur die am besten Informierten überleben. Diejenigen, die ihre Daten nutzen können, um bessere und fundiertere Entscheidungen zu treffen, reagieren schneller auf Unvorhergesehenes und entdecken neue Möglichkeiten. Dieser langwierige, aber wichtige Prozess ist eine Voraussetzung für die Erstellung präziser ML-Modelle und -Analysen und stellt den zeitaufwändigsten Teil eines ML-Projekts dar. Um diesen Zeitaufwand zu minimieren, können Datenwissenschaftler Tools verwenden, die die Datenaufbereitung auf verschiedene Weise automatisieren.
Wie bereiten Sie Ihre Daten auf?
Die Datenaufbereitung erfolgt in einer Reihe von Schritten, die mit der Erfassung der richtigen Daten beginnen, gefolgt von der Bereinigung, Kennzeichnung und abschließend der Validierung und Visualisierung.
Daten erfassen
Das Erfassen von Daten ist der Prozess des Zusammenstellens aller Daten, die Sie für ML benötigen. Die Datenerfassung kann mühsam sein, da sich die Daten in vielen Datenquellen befinden, unter anderem auf Laptops, in Data Warehouses, in der Cloud, in Anwendungen und auf Geräten. Eine Verbindung zu verschiedenen Datenquellen zu finden, kann eine Herausforderung sein. Auch nimmt das Datenvolumen exponentiell zu, so dass es eine Menge Daten zu durchsuchen gibt. Darüber hinaus haben die Daten je nach Quelle sehr unterschiedliche Formate und Typen. So sind beispielsweise Videodaten und tabellarische Daten nicht einfach gemeinsam zu verwenden.
Daten säubern
Die Datenbereinigung korrigiert Fehler und ergänzt fehlende Daten, um die Datenqualität zu gewährleisten. Nachdem Sie die Daten bereinigt haben, müssen Sie sie in ein einheitliches, lesbares Format umwandeln. Dieser Prozess kann die Änderung von Feldformaten wie Datumsangaben und Währungen, die Anpassung von Namenskonventionen und die Korrektur von Werten und Maßeinheiten umfassen, damit sie konsistent sind.
Daten beschriften
Die Datenbeschriftung ist ein Prozess, bei dem Rohdaten (Bilder, Textdateien, Videos usw.) identifiziert und mit einer oder mehreren aussagekräftigen und informativen Beschriftungen versehen werden, um einen Kontext zu schaffen, aus dem ein ML-Modell lernen kann. Beispielsweise können Beschriftungen anzeigen, ob auf einem Foto ein Vogel oder ein Auto zu sehen ist, welche Wörter in einer Audioaufnahme erwähnt wurden oder ob bei einer Röntgenaufnahme eine Unregelmäßigkeit entdeckt wurde. Die Beschriftung von Daten ist für verschiedene Anwendungsfälle erforderlich, beispielsweise für Computer Vision, natürliche Sprachverarbeitung und Spracherkennung.
Validierung und Visualisierung
Nachdem die Daten bereinigt und beschriftet sind, untersuchen ML-Teams die Daten oft, um sicherzustellen, dass sie korrekt und bereit für ML sind. Visualisierungen wie Histogramme, Streudiagramme, Box- und Whisker-Diagramme, Liniendiagramme und Balkendiagramme sind alles nützliche Tools, um die Korrektheit der Daten zu bestätigen. Darüber hinaus helfen Visualisierungen den Teams der Datenwissenschaft bei der Durchführung explorativer Datenanalysen. Dieser Prozess nutzt Visualisierungen, um Muster zu entdecken, Anomalien zu erkennen, eine Hypothese zu testen oder Annahmen zu überprüfen. Für die explorative Datenanalyse ist keine formale Modellierung erforderlich. Stattdessen können die Teams der Datenwissenschaft Visualisierungen verwenden, um die Daten zu entschlüsseln.
Wie kann AWS helfen?
Die Amazon SageMaker-Tools zur Datenaufbereitung helfen Unternehmen dabei, Erkenntnisse sowohl aus strukturierten als auch aus unstrukturierten Daten zu gewinnen. Beispielsweise können Sie Amazon SageMaker Data Wrangler verwenden, um die strukturierte Datenaufbereitung mit integrierten Datenvisualisierungen über eine visuelle Oberfläche ohne Code zu vereinfachen. SageMaker Data Wrangler enthält über 300 integrierte Datentransformationen, so dass Sie schnell normalisieren, transformieren und Funktionen kombinieren können, ohne Code schreiben zu müssen. Sie können Ihre benutzerdefinierten Transformationen auch in Python oder Apache Spark durchführen, falls Sie dies bevorzugen. Für unstrukturierte Daten benötigen Sie große, qualitativ hochwertige markierte Datensätze. Mit Amazon SageMaker Ground Truth Plus können Sie hochwertige ML-Trainingsdatensätze erstellen und gleichzeitig die Kosten für die Datenkennzeichnung um bis zu 40% senken, ohne dass Sie selbst Etikettierungsanwendungen erstellen oder Mitarbeiter für die Etikettierung verwalten müssen.
Analysten oder Geschäftsanwender, die es vorziehen, Daten in einem Notebook aufzubereiten, können von Ihren Amazon SageMaker Studio-Notebooks aus mit wenigen Klicks die Spark-Datenverarbeitungsumgebungen, die auf Amazon EMR laufen, visuell durchsuchen, entdecken und eine Verbindung zu ihnen herstellen. Wenn die Verbindung hergestellt ist, können Sie Daten interaktiv abfragen, untersuchen und visualisieren und Spark-Jobs mit der Sprache Ihrer Wahl (SQL, Python oder Scala) ausführen, um komplette Datenaufbereitungs- und ML-Workflows zu erstellen.