Veröffentlicht am: Nov 30, 2022
Mit Amazon SageMaker Data Wrangler kannst du die Zeit, die für das Aggregieren und Aufbereiten von Daten für ML benötigt wird, von Wochen auf Minuten reduzieren. Mit Data Wrangler kannst du den Prozess der Datenaufbereitung und des Feature-Engineerings vereinfachen und jeden Schritt des Datenaufbereitungs-Workflows, einschließlich Datenauswahl, Visualisierung, Bereinigung und Aufbereitung, über eine visuelle Oberfläche mit minimalem Code ausführen. Viele ML-Anwender möchten Datensätze direkt in Notebooks analysieren, um potenzielle Probleme mit der Datenqualität, wie fehlende Informationen, Extremwerte, fehlerhafte Datensätze oder Verzerrungen, zu erkennen, damit sie diese Probleme korrigieren und die Daten schneller für das Training von ML-Modellen vorbereiten können. ML-Anwender können Wochen damit verbringen, Standardcode zu schreiben, um verschiedene Teile ihres Datensatzes zu visualisieren und zu untersuchen, um mögliche Probleme zu erkennen und zu beheben.
Ab heute bietet Data Wrangler eine integrierte Datenvorbereitungsfunktion in Amazon-SageMaker-Studio-Notebooks, mit der ML-Fachleute Datenmerkmale visuell überprüfen, Probleme identifizieren und Datenqualitätsprobleme beheben können - mit nur wenigen Klicks direkt in den Notebooks. Wenn Benutzer einen Datenrahmen (eine tabellarische Darstellung von Daten) in ihren Notebooks anzeigen, generieren SageMaker-Studio-Notebooks automatisch Diagramme, die den Benutzern helfen, ihre Datenverteilungsmuster zu verstehen, potenzielle Probleme wie falsche Daten, fehlende Daten oder Ausreißer zu identifizieren und Datentransformationen vorzuschlagen, um diese Probleme zu beheben. Die neue Funktion ermöglicht es den Benutzern darüber hinaus, Probleme mit der Datenqualität in den Zielspalten zu identifizieren, die sich auf die Leistung des ML-Modells auswirken, z. B. ungleiche Daten oder gemischte Datentypen, und schlägt Datentransformationen vor, um diese Probleme zu beheben. Sobald der ML-Anwender eine Datentransformation auswählt, generieren die SageMaker-Studio-Notebooks die entsprechenden Codes innerhalb des Notebooks, sodass die Datentransformation bei jeder Ausführung des Notebooks wiederholt angewendet werden kann.
Diese Funktion ist generell in allen Regionen verfügbar, die derzeit von SageMaker-Studio-Notebooks unterstützt werden, ohne zusätzliche Kosten.
Für die ersten Schritte empfehlen wir die folgenden Ressourcen: