Was ist Datenaufbereitung?
Was ist die Verbindung zwischen ML und Datenaufbereitung?
Warum ist die Datenaufbereitung für ML wichtig?
Daten treiben ML an. Es ist zwar schwierig, diese Daten zu nutzen, um Ihr Unternehmen neu zu erfinden, aber es ist unerlässlich, um jetzt und in Zukunft relevant zu bleiben. Nur die am besten Informierten überleben. Diejenigen, die ihre Daten nutzen können, um bessere und fundiertere Entscheidungen zu treffen, reagieren schneller auf Unvorhergesehenes und entdecken neue Möglichkeiten. Dieser langwierige, aber wichtige Prozess ist eine Voraussetzung für die Erstellung präziser ML-Modelle und -Analysen und stellt den zeitaufwändigsten Teil eines ML-Projekts dar. Um diesen Zeitaufwand zu minimieren, können Datenwissenschaftler Tools verwenden, die die Datenaufbereitung auf verschiedene Weise automatisieren.
Wie bereiten Sie Ihre Daten auf?
Die Datenaufbereitung erfolgt in einer Reihe von Schritten, die mit der Erfassung der richtigen Daten beginnen, gefolgt von der Bereinigung, Kennzeichnung und abschließend der Validierung und Visualisierung.
Daten erfassen
Daten säubern
Daten beschriften
Validierung und Visualisierung
Wie kann AWS helfen?
Die Datenaufbereitungs-Tools von Amazon SageMaker helfen Unternehmen, Erkenntnisse aus strukturierten und unstrukturierten Daten zu gewinnen. Sie können zum Beispiel Amazon SageMaker Data Wrangler verwenden, um die Aufbereitung strukturierter Daten mit integrierten Datenvisualisierungen über eine visuelle Schnittstelle ohne Code zu vereinfachen. SageMaker Data Wrangler enthält über 300 integrierte Datentransformationen, so dass Sie schnell normalisieren, transformieren und Funktionen kombinieren können, ohne Code schreiben zu müssen. Sie können Ihre benutzerdefinierten Transformationen auch in Python oder Apache Spark durchführen, falls Sie dies bevorzugen. Für unstrukturierte Daten benötigen Sie große, qualitativ hochwertige markierte Datensätze. Mit Amazon SageMaker Ground Truth Plus können Sie hochwertige ML-Trainingsdatensätze erstellen und gleichzeitig die Kosten für das Daten-Labeling um bis zu 40 % senken, ohne selbst Labelling-Anwendungen erstellen oder Mitarbeiter für das Daten-Labelling beschäftigen zu müssen.
Für Analysten oder Geschäftsanwender, die die Datenaufbereitung in einem Notebook bevorzugen, können Sie Spark-Datenverarbeitungs-Umgebungen, die auf Amazon EMR ausgeführt werden, mit wenigen Klicks in Ihren Amazon-SageMaker-Studio-Notebooks visuell durchsuchen, entdecken und eine Verbindung zu ihnen herstellen. Wenn die Verbindung hergestellt ist, können Sie Daten interaktiv abfragen, untersuchen und visualisieren und Spark-Jobs mit der Sprache Ihrer Wahl (SQL, Python oder Scala) ausführen, um komplette Datenaufbereitungs- und ML-Workflows zu erstellen.
Nächste Schritte bei der Datenaufbereitung


Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Beginnen Sie mit der Entwicklung von Machine Learning in der AWS-Managementkonsole.