Veröffentlicht am: Jun 16, 2022

Heute gestalten wir die Vorbereitung und Visualisierung von Daten mit der Unterstützung von Codeschnipseln in PySpark und Altair in Amazon SageMaker Data Wrangler schneller und einfacher als je zuvor. Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und des Feature Engineerings vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -reinigung, -erkundung und -visualisierung, über eine einzige visuelle Oberfläche abschließen. Mit dem Datenauswahl-Tool von SageMaker Data Wrangler können Sie schnell Daten aus mehreren Datenquellen wie Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store, Databricks und SnowFlake auswählen.

Ab heute können Sie PySpark- und Altair-Codeschnipsel verwenden, um Daten schneller als je zuvor in Amazon SageMaker Data Wrangler vorzubereiten und zu visualisieren PySpark ist eine Schnittstelle für Apache Spark in Python. Altair ist eine deklarative statistische Visualisierungsbibliothek für Python, die auf Vega und Vega-Lite basiert. Zuvor mussten Datenwissenschaftler, die Data Wrangler verwenden, mit einem leeren Editor beginnen oder im Internet nach Codeschnipseln suchen, wenn sie Code in PySpark oder Altair zur Vorbereitung und Visualisierung ihrer Daten schreiben wollten. Jetzt können Datenwissenschaftler, die PySpark zum Schreiben einer benutzerdefinierten Transformierung in SageMaker Data Wrangler verwenden möchten, in über 30 PySpark-Codeschnipseln nach Datenverarbeitungsbedürfnissen wie dem Löschen von Reihen, der stapelweisen Umbenennung, dem Casting und Neuorganisieren von Spalten und dem Filtern von Textspalten nach Werten mit einer bestimmten Zeichenkette suchen. Darüber hinaus können Datenwissenschaftler, die Altair-Code zur Erstellung von Visualisierungen in SageMaker Data Wrangler verwenden möchten, innerhalb von SageMaker Data Wrangler nach Altair-Codeschnipseln suchen, um Heatmaps, Binned Scatter Plots und gefüllte Schrittdiagramme zu erstellen.

Zum Einstieg in die neuen Funktionen von Amazon SageMaker Data Wrangler können Sie Amazon SageMaker Studio nach dem Upgrade auf die neueste Version öffnen und im Menü auf Datei > Neu > Fluss oder im SageMaker Studio Launcher auf „Neuer Datenfluss“ klicken. Weitere Informationen zu den neuen Funktionen finden Sie im Blog und in der Dokumentation