Bereiten Sie JSON- und ORC-Daten vor, balancieren und codieren Sie Datensätze und launchen Sie Datenverarbeitungsaufträge mit einem Klick mit Amazon SageMaker Data Wrangler

Veröffentlicht am: Feb 2, 2022

Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und des Feature-Engineerings vereinfachen, und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -Bereinigung, -Erkundung und -Visualisierung, über eine einzige visuelle Oberfläche abschließen. Mit dem Datenauswahl-Tool von SageMaker Data Wrangler können Sie schnell Daten aus mehreren Datenquellen wie Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store und SnowFlake auswählen.

Heute kündigen wir die allgemeine Verfügbarkeit der Unterstützung für die Dateiformate JSON, JSONL und ORC in Data Wrangler an. Sie können jetzt Ihre Daten in diesen Dateiformaten mit Data Wrangler durchsuchen, in der Vorschau anzeigen und importieren. Das ORC-Dateiformat bietet eine hocheffiziente Möglichkeit zum Speichern von Hive-Daten, es kann jedoch schwierig sein, eine Vorschau dieser Daten mit einem Texteditor anzuzeigen. Mit der Unterstützung des ORC-Dateiformats in Data Wrangler können Sie Daten in einer ORC-Datei jetzt einfach durchsuchen, genau wie in einer CSV-Datei. Um weitere Informationen über das Importieren von ORC-Dateien und das Vorbereiten von JSON-Daten mit Data Wrangler zu erhalten, lesen Sie den Blog.

Darüber hinaus kündigen wir die allgemeine Verfügbarkeit mehrerer neuer Transformationen an, darunter: Transformationen zur Behandlung von Klassenungleichgewichten in Ihren Datensätzen, Transformationen zur Verarbeitung von Spalten mit Arrays und Zeichenfolgen im JSON-Format sowie eine Ähnlichkeitscodierungstransformation zur effizienten Codierung kategorialer Daten mit hoher Kardinalität. Diese Transformationen ergänzen die Sammlung von Data Wrangler mit über 300 Transformationen, darunter viele Transformationen für die Verarbeitung von Zeitreihendaten. Nachstehend finden Sie eine detaillierte Beschreibung dieser neuen Transformationen:

Balance-Daten. Datensätze können häufig nicht balanciert sein, wodurch eine Zielklasse gegenüber der anderen bevorzugt wird. Die neue Balance-Transformation kann Ihnen dabei helfen, je nach Ihren Anforderungen ein Oversampling für spärliche Minderheitsklasse durchzuführen. Darüber hinaus können Sie jetzt neue Beispiele der Minderheitsklasse mithilfe der synthetischen Minderheits-Oversampling-Technik (Synthetic Minority Oversamplink Technique, SMOTE) generieren, die jetzt allgemein in Data Wrangler verfügbar ist. SMOTE generiert automatisch neue Beobachtungen Ihrer Minderheitenklasse aus Gruppen ähnlicher Zeilen in Ihrem Datensatz. Um mehr über den Umgang mit unausgeglichenen Datensätzen mit Data Wrangler zu erfahren, lesen Sie den Blog.
Bearbeiten Sie strukturierte Spalten. Bei Spalten, die Arrays enthalten, generiert eine neue Transformation zum Auflösen von Arrays eine neue Zeile für jeden Wert im Array. Bei Zeichenfolgen im JSON-Format erstellt eine neue Transformation für strukturierte Spalten mit flacher Struktur neue Spalten für jedes Schlüssel/Wert-Paar in der Zeichenfolge im JSON-Format. Um mehr über den Umgang mit strukturierten Spalten mit Data Wrangler zu erfahren, lesen Sie den Blog.
Kodieren Sie kategoriale Variablen. Mit einer neuen Ähnlichkeitscodierungstransformation können Sie jetzt kategoriale Variablen mit hoher Kardinalität effizient codieren. Viele Datenwissenschaftler wenden häufig eine One-Hot-Codierung auf ihre kategorialen Variablen an, die jeden kategorialen Wert in eine separate Spalte umwandelt. Der Prozess der One-Hot-Codierung kann eine einzelne Spalte mit US-Staaten in 50 neue binäre Variablen umwandeln (eine für jeden Staat). Mit der jetzt in Data Wrangler verfügbaren Ähnlichkeitscodierung können Sie eine kategoriale Variable in eine viel kleinere Anzahl von Spalten codieren, während Sie die Modellleistung beibehalten oder möglicherweise verbessern.

Schließlich kündigen wir die allgemeine Verfügbarkeit einer Ein-Klick-Erfahrung zum Erstellen von Aufträgen an, um Datenverarbeitungsaufträge zu launchen. Ab heute können Sie auf die Schaltfläche „Auftrag erstellen“ klicken, mit der Sie einen Datenverarbeitungsauftrag mit den in Ihrem Data-Wrangler-Flow angegebenen Schritten starten können. Sie können weiterhin die Datenverarbeitungs-Notebooks in Data Wrangler verwenden, um Datenverarbeitungsaufträge zu launchen und Data Wrangler in Ihre MLOps-Pipelines zu integrieren. Um mehr darüber zu erfahren, wie Sie einen Datenverarbeitungsauftrag mit Data Wrangler launchen, lesen Sie den Blog.

Zum Einstieg in die neuen Funktionen von Amazon SageMaker Data Wrangler können Sie Amazon SageMaker Studio nach dem Upgrade auf die neueste Version öffnen und im Menü auf „Datei“ > „Neu“ > „Fluss“ oder in SageMaker Studio Launcher auf „Neuer Datenfluss“ klicken. Weitere Informationen zu den neuen Funktionen finden Sie in der Dokumentation.

Bereiten Sie JSON- und ORC-Daten vor, balancieren und codieren Sie Datensätze und launchen Sie Datenverarbeitungsaufträge mit einem Klick mit Amazon SageMaker Data Wrangler

Ende des Supports für Internet Explorer