Veröffentlicht am: Oct 14, 2021
Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Aufbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie den Prozess der Datenaufbereitung und des Feature-Engineerings vereinfachen, und jeden Schritt des Datenaufbereitungs-Workflows, einschließlich der Datenauswahl, -bereinigung, -erkundung und -visualisierung, über eine einzige visuelle Oberfläche abschließen.
Ab heute können Sie Daten in Amazon Athena mithilfe von Arbeitsgruppen abfragen, Verknüpfungen mehrerer Schlüssel für Datensätze aktivieren, Korrelationen und doppelte Zeilen visualisieren und kundenseitig verwaltete Schlüssel beim Exportieren Ihrer Datenflüsse bereitstellen, was die Aufbereitung von Daten für ML vereinfacht und beschleunigt. Nachstehend finden Sie eine detaillierte Beschreibung dieser Funktionen:
- Unterstützung für Athena-Arbeitsgruppen. Amazon Athena-Arbeitsgruppen sind ein Ressourcentyp, der verwendet werden kann, um die Abfrageausführung und den Abfrageverlauf zwischen Benutzern, Teams oder Anwendungen zu trennen, die unter demselben AWS-Konto ausgeführt werden. Ab heute können Sie Daten mit Athena über SageMaker Data Wrangler abfragen, wobei Sie die Arbeitsgruppe Ihrer Wahl verwenden.
- Zwei neue Visualisierungen zur Unterstützung bei der Datenaufbereitung:
- Mit der Visualisierung für Funktionskorrelationen von SageMaker Data Wrangler können Sie ganz einfach die Korrelation von Funktionen in Ihrem Datensatz berechnen und als Korrelationsmatrix visualisieren.
- Mit der neuen Visualisierung zur Erkennung doppelter Zeilen können Sie schnell feststellen, ob Ihr Datensatz doppelte Zeilen enthält.
- Verknüpfungen mehrerer Schlüssel. Sie können jetzt mehrere Spalten angeben, wenn Sie zwei Datensätze in SageMaker Data Wrangler zusammenführen und Zwischenschritte innerhalb von SageMaker-Data-Wrangler-Abläufen löschen.
- Unterstützung für kundenseitig verwaltete Schlüssel (Customer Managed Keys, CMKs) mit Amazon Key Management Service (KMS). Ab heute können Sie den KMS-Schlüssel angeben, wenn Sie die Funktion „In S3 exportieren“ zusätzlich zu den exportierten Notebooks in SageMaker Data Wrangler verwenden.
Zum Einstieg in die neuen Funktionen von Amazon SageMaker Data Wrangler können Sie Amazon SageMaker Studio nach dem Upgrade auf die neueste Version öffnen und im Menü auf „Datei“ > „Neu“ > „Fluss“ oder in SageMaker Studio Launcher auf „Neuer Datenfluss“ klicken. Weitere Informationen zu den neuen Funktionen finden Sie in der Dokumentation.