Veröffentlicht am: Aug 16, 2021
Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für maschinelles Lernen (ML) von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie den Prozess der Datenaufbereitung und des Merkmal-Engineerings vereinfachen, und jeden Schritt des Datenaufbereitungs-Arbeitsprozess, einschließlich der Datenauswahl, -bereinigung, -erkundung und -visualisierung, über eine einzige visuelle Oberfläche abschließen. Ab heute können Sie neue Funktionen von Amazon SageMaker Data Wrangler nutzen, die die Vorbereitung von Daten für ML vereinfachen und beschleunigen, einschließlich: Multikollinearitätserkennung, einfacher Export von Ergebnissen in Amazon S3, Unterstützung für Spaltentrennzeichen und die Möglichkeit, denselben SageMaker-Data-Wrangler-Fluss auf verschiedenen Datensätzen Ihrer Wahl wieder zu verwenden.
Multikollinearität tritt auf, wenn zwei oder mehr Funktionen in einem Datensatz stark miteinander korreliert sind. Das Erkennen des Vorhandenseins von Multikollinearität in einem Datensatz ist wichtig, da Multikollinearität die Leistung eines ML-Modells beeinträchtigen kann. Ab heute können Sie drei neue Diagnosevisualisierungen in Amazon SageMaker Data Wrangler verwenden, um Multikollinearität in einem Datensatz zu erkennen. Mit der ersten Visualisierung können Sie Varianzinflationsfaktoren (VIFs) in Ihrem Datensatz darstellen. Hohe VIFs in Ihren Daten können auf das Vorhandensein von Multikollinearität hinweisen. Die zweite Visualisierung verwendet die Hauptkomponentenanalyse (Principal Components Analysis, PCA) und die Singulärwertdekomposition (Singular Value Decomposition, SVD), um Singulärwerte zu berechnen. Eine stark ungleichmäßige Verteilung einzelner Werte in Ihrem Datensatz kann ebenfalls auf Multikollinearität hinweisen. Schließlich verwendet eine dritte Visualisierung LASSO (Least Absolute Shrinkage and Selection Operator, dt. Kleinster absoluter Schrumpf- und Auswahloperator), der Koeffizientenwerte aus einem mit Ihren Daten trainierten LASSO-Modell darstellt. Variablen mit Koeffizientenwerten, die nahe bei Null liegen, sind möglicherweise redundant und tragen möglicherweise nicht wesentlich zur Leistung eines ML-Modells bei.
Ab heute können Sie Ihre aufbereiteten Daten auch ganz einfach mit wenigen Klicks exportieren. Die neue Exportfunktion von Amazon SageMaker Data Wrangler bietet ein Exporterlebnis auf Knopfdruck, um Ihre Daten zu exportieren. Sie können einfach auf der Registerkarte Vorbereiten auf „Daten exportieren“ klicken und den Amazon-S3-Speicherort angeben, an dem die Ergebnisse gespeichert werden sollen. Ihre Ergebnisse werden dann direkt nach S3 exportiert, damit Sie sie in anderen ML-Anwendungen verwenden können. Darüber hinaus können Sie jetzt Daten in einer Vielzahl von durch Trennzeichen getrennten Formaten importieren, darunter durch Kommas getrennte, durch Registerkarten getrennte, durch Pipes getrennte, durch Semikolons getrennte und durch Doppelpunkte getrennte Datenformate. Schließlich können Sie jetzt Datensätze ändern, die in Ihren SageMaker-Data-Wrangler-Datenflüssen verwendet werden. Sie können einfach in der Datenansicht auf einen Quellknoten klicken und „Datensatz bearbeiten“ auswählen, um die Quelldaten zu ändern, die in einer SageMaker-Data-Wrangler-Flussdatei verwendet werden.
Zum Einstieg in die neuen Funktionen von Amazon SageMaker Data Wrangler können Sie Amazon SageMaker Studio öffnen und im Menü auf „Datei > Neuer Fluss > Fluss“ oder im SageMaker-Studio-Launcher auf „Neuer Datenfluss“ klicken. Weitere Informationen finden Sie auf der Funktionsseite oder lesen Sie die Dokumentation. Hier erfahren Sie auch, wie Sie auf die neueste Version aktualisieren.