Was ist Feature Engineering?

Modellfunktionen sind die Eingaben, mit denen Machine Learning (ML)-Modelle während des Trainings und der Inferenz Vorhersagen treffen. Die Genauigkeit des ML-Modells hängt von einer präzisen Zusammenstellung und Komposition der Funktionen ab. In einer ML-Anwendung, die eine Musik-Wiedergabeliste empfiehlt, könnten die Funktionen beispielsweise Song-Bewertungen, die zuvor angehörten Songs und die Hördauer der Songs umfassen. Die Erstellung von Funktionen kann einen erheblichen technischen Aufwand erfordern. Beim Feature Engineering werden Variablen aus Rohdaten wie Preislisten, Produktbeschreibungen und Absatzmengen extrahiert und umgewandelt, damit Funktionen für das Training und die Vorhersage verwendet werden können. Die für die Entwicklung von Funktionen erforderlichen Schritte umfassen die Datenextraktion und -bereinigung sowie die Erstellung und Speicherung von Funktionen.  

Was sind die Herausforderungen beim Feature Engineering?

Feature Engineering ist herausfordernd, da es eine Kombination aus Datenanalyse, Fachwissen und etwas Intuition erfordert. Bei der Erstellung von Funktionen ist es verlockend, sofort auf verfügbare Daten zurückzugreifen, aber oft sollten Sie zunächst überlegen, welche Daten benötigt werden, indem Sie mit Experten sprechen, ein Brainstorming durchführen und Nachforschungen bei Dritten anstellen. Wenn Sie das nicht erledigen, könnten Sie wichtige Prädiktoren übersehen.

Datenextrahierung

Das Erfassen von Daten ist der Prozess des Zusammenstellens aller Daten, die Sie für ML benötigen. Die Datenerfassung kann mühsam sein, da sich die Daten in vielen Datenquellen befinden, unter anderem auf Laptops, in Data Warehouses, in der Cloud, in Anwendungen und auf Geräten. Eine Verbindung zu verschiedenen Datenquellen zu finden, kann eine Herausforderung sein. Auch nimmt das Datenvolumen exponentiell zu, so dass es eine Menge Daten zu durchsuchen gibt. Darüber hinaus haben die Daten je nach Quelle sehr unterschiedliche Formate und Typen. So sind beispielsweise Videodaten und tabellarische Daten nicht einfach gemeinsam zu verwenden.

Funktionserstellung

Die Datenbeschriftung ist ein Prozess, bei dem Rohdaten (Bilder, Textdateien, Videos usw.) identifiziert und mit einer oder mehreren aussagekräftigen und informativen Beschriftungen versehen werden, um einen Kontext zu schaffen, aus dem ein ML-Modell lernen kann. Beispielsweise können Beschriftungen anzeigen, ob auf einem Foto ein Vogel oder ein Auto zu sehen ist, welche Wörter in einer Audioaufnahme erwähnt wurden oder ob bei einer Röntgenaufnahme eine Unregelmäßigkeit entdeckt wurde. Die Beschriftung von Daten ist für verschiedene Anwendungsfälle erforderlich, beispielsweise für Computer Vision, natürliche Sprachverarbeitung und Spracherkennung.

Funktionsspeicherung

Nachdem die Daten bereinigt und beschriftet sind, untersuchen ML-Teams die Daten oft, um sicherzustellen, dass sie korrekt und bereit für ML sind. Visualisierungen wie Histogramme, Streudiagramme, Box- und Whisker-Diagramme, Liniendiagramme und Balkendiagramme sind alles nützliche Tools, um die Korrektheit der Daten zu bestätigen. Darüber hinaus helfen Visualisierungen den Teams der Datenwissenschaft bei der Durchführung explorativer Datenanalysen. Dieser Prozess nutzt Visualisierungen, um Muster zu entdecken, Anomalien zu erkennen, eine Hypothese zu testen oder Annahmen zu überprüfen. Für die explorative Datenanalyse ist keine formale Modellierung erforderlich. Stattdessen können die Teams der Datenwissenschaft Visualisierungen verwenden, um die Daten zu entschlüsseln. 

Wie kann AWS beim Feature Engineering helfen?

Mit Amazon SageMaker Data Wrangler können Sie den Prozess des Feature Engineering über eine einzige visuelle Benutzeroberfläche vereinfachen. Mit dem Datenauswahl-Tool von SageMaker Data Wrangler können Sie die gewünschten Rohdaten aus verschiedenen Datenquellen auswählen und mit einem einzigen Klick importieren. SageMaker Data Wrangler enthält über 300 integrierte Datenumwandlungen, sodass Sie schnell Funktionen normalisieren, umwandeln, und kombinieren können, ohne Code schreiben zu müssen. Nachdem Ihre Daten vorbereitet sind, können Sie mit Amazon SageMaker Pipelines vollautomatische ML-Arbeitsprozesse erstellen, und diese zur Wiederverwendung im Amazon SageMaker Feature Store speichern. SageMaker Feature Store ist ein speziell entwickeltes Repository, in dem Sie Funktionen speichern und darauf zugreifen können, sodass es einfacher ist, sie zu benennen, zu organisieren und teamübergreifend wiederzuverwenden. SageMaker Feature Store bietet einen einheitlichen Speicher für Funktionen während des Trainings und der Echtzeit-Inferenz, ohne dass Sie zusätzlichen Code schreiben oder manuelle Prozesse erstellen müssen, um die Funktionen konsistent zu halten.

Feature Engineering – nächste Schritte mit AWS

Standard Product Icons (Features) Squid Ink
Zusätzliche produktbezogene Ressourcen ansehen
Mehr über die AWS-Unterstützung für Feature Engineering erfahren 
Sign up for a free account
Für ein kostenloses Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren 
Standard Product Icons (Start Building) Squid Ink
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie mit der Entwicklung von Machine Learning in der AWS-Managementkonsole.

Anmeldung