Amazon SageMaker Data Wrangler unterstützt jetzt Zufallsstichproben und geschichtete Zufallsstichproben

Veröffentlicht am: Apr 27, 2022

Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und des Feature-Engineerings vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -Bereinigung, -Erkundung und -Visualisierung, über eine einzige visuelle Oberfläche abschließen. Mit dem Datenauswahl-Tool von SageMaker Data Wrangler können Sie schnell Daten aus mehreren Datenquellen wie Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store, Databricks Delta Lake und SnowFlake auswählen.

Heute geben wir die allgemeine Verfügbarkeit der Zufallsstichproben von Daten beim Import von S3 und neuen Transformationen bekannt, um Zufalls- oder geschichtete Zufallsstichproben Ihrer Datensätze mit Amazon SageMaker Data Wrangler in Amazon SageMaker Studio zu erstellen. Vorher musste Code geschrieben werden, um Zufallsstichproben oder geschichtete Zufallsstichproben der Daten bei der Vorbereitung von Daten für ML-Anwendungen zu erstellen. Heute können Sie mit der Zufallsstichproben-Option eine Zufallsstichprobe beim Importieren Ihrer Daten auf S3 erstellen, wenn Sie ihre Daten in Data Wrangler importieren. Außerdem können Sie mit unseren neuen Transformationen für Zufalls- und geschichtete Stichproben die folgenden Probenarten für Ihren Datensatz erstellen:

Zufallsstichprobe. Zufallsstichproben sind hilfreich, wenn Sie einen Datensatz haben, der zu groß zur interaktiven Vorbereitung ist. Mit der Zufallsstichproben-Transformation können Sie einen Teil Ihres Datensatzes nach dem Zufallsprinzip auswählen, um ihn auf Machine Learning vorzubereiten.
Geschichtete Zufallsstichprobe. Geschichtete Zufalsstichproben sind hilfreich, wenn Ihre Daten ein seltenes Ereignis enthalten (wie eine betrügerische Kreditkarten-Transaktion, die bei weniger als einem Prozent aller Kreditkarten-Transaktionen vorkommen) und Sie den Anteil des seltenen Ereignisses in Ihrem Datensatz, bei dem die Zufallsstichprobe durchgeführt wurde, beibehalten möchten.
First-K-Stichproben. First-K-Stichproben erstellen eine Probe mit den ersten paar K Reihen Ihres K-Datensatzes, wobei K eine beliebige Nummer darstellt. Beispielsweise, wenn K 1 000 ist, dann würde eine Probe erstellt werden, die die ersten 1 000 Zeilen Ihres Datensatzes enthält. First-K-Stichproben sind hilfreich, wenn Sie nur das richtige Spaltenschema zur Vorbereitung Ihrer Daten benötigen. Ein zusätzlicher Vorteil der First-K-Stichproben ist, dass es ein äußerst zeiteffizienter Betriebsvorgang ist.

Weitere Informationen über die Stichproben Ihrer Daten mit Amazon SageMaker Data Wrangler finden Sie im Blog.

Für die ersten Schritte in den neuen Funktionen von Amazon SageMaker Data Wrangler können Sie Amazon SageMaker Studio nach dem Upgrade auf die neueste Version öffnen und im Menü auf „Datei“ > „Neu“ > „Fluss“ oder in SageMaker Studio Launcher auf „Neuer Datenfluss“ klicken. Weitere Informationen zu den neuen Funktionen finden Sie in der Dokumentation.

Amazon SageMaker Data Wrangler unterstützt jetzt Zufallsstichproben und geschichtete Zufallsstichproben

Ende des Supports für Internet Explorer