Veröffentlicht am: Jun 9, 2022
Heute kündigen wir die allgemeine Verfügbarkeit der Aufteilung von Daten in Trainings- und Test-Splits mit Amazon SageMaker Data Wrangler an. Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und des Feature Engineerings vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -reinigung, -erkundung und -visualisierung, über eine einzige visuelle Oberfläche abschließen. Mit dem Datenauswahl-Tool von SageMaker Data Wrangler können Sie schnell Daten aus mehreren Datenquellen wie Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake und Databricks Delta Lake auswählen.
Ab heute können Sie mit Data Wrangler Ihre Daten mit nur wenigen Klicks in Trainings- und Testsätze aufteilen. Früher mussten Datenwissenschaftler vor dem ML-Modell-Training Code schreiben, um ihre Daten in Trainings- und Testsätze aufzuteilen. Mit der neuen Training-Test-Aufteilungsfunktion von SageMaker Data Wrangler können Sie Ihre Daten jetzt in Trainings-, Test- und Validierungssätze aufteilen. Diese Sätze können dann für das Training und die Validierung von Modellen verwendet werden. SageMaker Data Wrangler bietet außerdem verschiedene Arten von Aufteilungen, darunter: Randomisierte, geordnete, geschichtete und schlüsselbasierte Aufteilungen sowie die Möglichkeit, die Datenmenge für jeden Split festzulegen. Wenn Sie beispielsweise Ihre Daten nach dem Zufallsprinzip in einen Trainingssatz und einen Testsatz aufteilen, können Sie ein Machine-Learning-Modell mit dem Trainingssatz trainieren und dann Ihr Machine -Learning-Modell mit dem Testsatz bewerten. Die Bewertung des Modells anhand von Trainingsdaten kann zu Verzerrungen führen. Daher ist es wichtig, die Testdaten vor dem Training beiseite zu legen. Die Bewertung der Modellgenauigkeit anhand der Daten des Testsatzes liefert auf diese Weise eine realistische Einschätzung der Modellleistung.
Um mit den neuen Funktionen von Amazon SageMaker Data Wrangler zu starten, aktualisieren Sie auf die neueste Version und klicken Sie im Menü auf Datei > Neu > Fluss oder im SageMaker-Studio-Launcher auf „Neuer Datenfluss“. Weitere Informationen zu den neuen Funktionen finden Sie im Blogbeitrag und in der Dokumentation.