Amazon SageMaker Data Wrangler

Der schnellste und einfachste Weg, Tabellen- und Bilddaten für Machine Learning aufzubereiten

Warum SageMaker Data Wrangler?

Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für ML von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie den Prozess der Datenaufbereitung und des Feature Engineering vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows (einschließlich Datenauswahl, Bereinigung, Erkundung, Visualisierung und Verarbeitung in großem Maßstab) von einer einzigen visuellen Oberfläche aus abschließen. Sie können SQL verwenden, um die gewünschten Daten aus verschiedenen Datenquellen auszuwählen und schnell zu importieren. Als nächstes können Sie den Datenqualitäts- und Erkenntnisbericht verwenden, um die Datenqualität automatisch zu überprüfen und Anomalien wie doppelte Zeilen und Zielverluste zu erkennen. SageMaker Data Wrangler beinhaltet über 300 integrierte Datentransformationen, so dass Sie Daten transformieren können, ohne Code schreiben zu müssen.

Amazon SageMaker Data Wrangler – Übersicht

Vorteile von SageMaker Data Wrangler

Wählen Sie Daten aus, gewinnen Sie Einblicke in die Daten und wandeln Sie sie um, um sie in Minutenschnelle für Machine Learning (ML) vorzubereiten.
Schnelle Einschätzung der Genauigkeit von ML-Modellen und Diagnose von Problemen, bevor die Modelle in der Produktion eingesetzt werden.
Bringen Sie die Datenvorbereitung schneller in die Produktion, ohne PySpark-Code erstellen, Apache Spark installieren oder Cluster einrichten zu müssen.

Funktionsweise

Funktionsweise von Amazon SageMaker Data Wrangler

Schnellerer Zugriff, Auswahl und Abfrage von Daten

Mit dem Datenauswahltool von SageMaker Data Wrangler können Sie schnell auf Ihre Tabellen- und Bilddaten aus verschiedenen gängigen Quellen (wie Amazon Simple Storage Service [Amazon S3], Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake und Databricks) und über 50 anderen Quellen von Drittanbietern (wie Salesforce, SAP, Facebook Ads und Google Analytics) zugreifen und diese auswählen. Sie können auch Abfragen für Datenquellen mit SQL schreiben und Daten aus verschiedenen Dateiformaten wie CSV, Parquet und JSON und Datenbanktabellen direkt in SageMaker importieren.

Datenerkenntnisse generieren und die Datenqualität verstehen

SageMaker Data Wrangler bietet einen Bericht über Datenqualität und -erkenntnisse, der automatisch die Datenqualität (z. B. fehlende Werte, doppelte Zeilen und Datentypen) überprüft und hilft, Anomalien (z. B. Ausreißer, Klassenungleichgewicht und Datenlecks) in Ihren Daten zu erkennen. Sobald Sie die Datenqualität effektiv überprüfen können, können Sie Domainwissen schnell anwenden, um Datensätze für das ML-Modelltraining zu verarbeiten.

Verstehen Sie Ihre Daten mit Visualisierungen

Mit SageMaker Data Wrangler können Sie Ihre Daten besser verstehen und potenzielle Fehler und Extremwerte mithilfe einer Reihe robuster vorkonfigurierter Visualisierungsvorlagen identifizieren. Histogramme, Streudiagramme, Box- und Whiskerdiagramme, Liniendiagramme und Balkendiagramme sind bereits integriert und können auf Ihre Daten angewendet werden. Fortgeschrittenere ML-spezifische Visualisierungen (wie Bias-Bericht, Feature-Korrelation, Multikollinearität, Target Leakage und Zeitreihen) sind ebenfalls verfügbar, die die Feature-Bedeutung und Feature-Korrelationen zeigen. Auf diese Tools kann über die Registerkarte Analyse zugegriffen werden.

Daten effizient transformieren

SageMaker Data Wrangler bietet eine Auswahl von über 300 vorgefertigten, PySpark-basierten Datentransformationen, sodass Sie Ihre Daten transformieren und Ihren Datenvorbereitungs-Workflow skalieren können, ohne eine einzige Codezeile schreiben zu müssen. Vorkonfigurierte Transformationen decken gängige Anwendungsfälle ab, z. B.das Reduzieren von JSON-Dateien, das Löschen doppelter Zeilen, das Ersetzen fehlender Daten mit Mittelwert oder Mittel, One-Hot-Codierung und zeitreihenspezifische Transformer, um die Vorbereitung von Zeitreihendaten für ML zu beschleunigen. Für Ihre Bilddaten bietet SageMaker Data Wrangler gängige Bildverbesserungen (wie Weichzeichnen, Verbessern und Größenänderung) und Bereinigungsvorgänge (wie das Löschen beschädigter Bilder und Duplikate). Sie können auch benutzerdefinierte Transformationen in PySpark, SQL und Pandas erstellen. SageMaker Data Wrangler bietet Bildbibliotheken (imgaug, OpenCV) zum Erstellen benutzerdefinierter Transformationen für CV-Anwendungsfälle und eine umfangreiche Bibliothek mit Codefragmenten, um das Authoring benutzerdefinierter Transformationen zu optimieren.

Verstehen Sie die Vorhersagekraft Ihrer Daten

Die Funktion SageMaker Data Wrangler Quick Model liefert eine Schätzung der erwarteten Vorhersagekraft Ihrer Daten. Quick Model teilt Ihre Daten automatisch in Trainings- und Testdatensätze auf und trainiert die Daten mit einem XGBoost-Modell mit Standard-Hyperparametern. Basierend auf der Aufgabe, die Sie lösen (z. B. Klassifizierung oder Regression), bietet SageMaker Data Wrangler eine Modellzusammenfassung, eine Feature-Zusammenfassung und eine Konfusionsmatrix, die Ihnen helfen, Ihre Datenaufbereitungsabläufe schnell zu iterieren.

ML-Datenvorbereitungs-Workflows automtisieren und bereitstellen

Mit der Benutzeroberfläche von SageMaker Data Wrangler können Sie die Skalierung auf große Datensätze starten, ohne PySpark-Code erstellen, Apache Spark installieren oder Cluster einrichten zu müssen. Sie können einen Auftrag starten oder planen, um Ihre Daten schnell zu verarbeiten oder sie in ein SageMaker-Studio-Notebook zu exportieren. SageMaker Data Wrangler bietet verschiedene Exportoptionen, darunter SageMaker-Data-Wrangler-Aufträge, SageMaker Feature Store und SageMaker Pipelines, sodass Sie Ihren Datenvorbereitungsablauf in Ihren ML-Workflow integrieren können. Alternativ können Sie Ihren Datenaufbereitungs-Workflow auch auf einem von SageMaker gehosteten Endpunkt einsetzen. Schließlich können Sie mithilfe einer visuellen Oberfläche mit SageMaker Canvas Daten direkt zum Trainieren des ML-Modells exportieren

Kunden

Invista
„Bei INVISTA sind wir von Transformation getrieben und wollen Produkte und Technologien entwickeln, von denen Kunden auf der ganzen Welt profitieren. Wir sehen ML als eine Möglichkeit, das Kundenerlebnis zu verbessern. Angesichts der Datensätze, die sich über Hunderte von Millionen Zeilen erstrecken, brauchten wir jedoch eine Lösung, die uns hilft, Daten vorzubereiten und ML-Modelle in großem Maßstab zu entwickeln, bereitzustellen und zu verwalten. Mit Amazon SageMaker Data Wrangler können wir unsere Daten jetzt interaktiv auswählen, bereinigen, untersuchen und verstehen, sodass unser Data-Science-Team Feature-Engineering-Pipelines erstellen kann, die mühelos auf Datensätze skaliert werden können, die Hunderte von Millionen von Zeilen umfassen. Mit Amazon SageMaker Data Wrangler können wir unsere ML-Workflows schneller operationalisieren.“

Caleb Wilkinson, ehemaliger Lead Data Scientist – INVISTA

3M
„Mit ML verbessert 3M bewährte Produkte wie Sandpapier und treibt Innovationen in mehreren anderen Bereichen voran, darunter im Gesundheitswesen. Da wir planen, ML auf weitere Bereiche von 3M zu skalieren, sehen wir, dass die Menge an Daten und Modellen schnell wächst und sich jedes Jahr verdoppelt. Wir sind von den neuen SageMaker-Funktionen begeistert, weil sie uns bei der Skalierung helfen. Amazon SageMaker Data Wrangler macht es viel einfacher, Daten für das Modelltraining vorzubereiten, und der Amazon SageMaker Feature Store macht es überflüssig, immer wieder dieselben Modellfunktionen zu erstellen. Schließlich wird uns Amazon SageMaker Pipelines dabei helfen, die Datenvorbereitung, Modellerstellung und Modellbereitstellung in einen End-to-End-Workflow zu automatisieren, damit wir die Markteinführungszeit für unsere Modelle verkürzen können. Unsere Forscher freuen sich darauf, die neue Geschwindigkeit der Wissenschaft bei 3M zu nutzen.“

David Frazee, ehemaliger Technical Director, 3M Corporate Research Systems Lab

Deloitte
„Amazon SageMaker Data Wrangler ermöglicht es uns, mit einer umfangreichen Sammlung von Transformationstools, die den Prozess der ML-Datenvorbereitung, der für die Markteinführung neuer Produkte erforderlich ist, zu beschleunigen, um unsere Anforderungen an Datenvorbereitung zu erfüllen. Unsere Kunden wiederum profitieren von der Geschwindigkeit, mit der wir eingesetzte Modelle skalieren, die es uns ermöglicht, innerhalb von Tagen statt Monaten messbare, nachhaltige Ergebnisse zu liefern, die die Bedürfnisse unserer Kunden erfüllen.“

Frank Farrall, Principal, AI Ecosystems and Platforms Leader, Deloitte

NRI
„Als AWS Premier Consulting Partner arbeiten unsere Engineering-Teams sehr eng mit AWS zusammen, um innovative Lösungen zu entwickeln, die unseren Kunden dabei helfen, die Effizienz ihres Betriebs kontinuierlich zu verbessern. ML ist der Kern unserer innovativen Lösungen, aber unser Datenvorbereitungs-Workflow umfasst ausgefeilte Datenvorbereitungstechniken, deren Operationalisierung in einer Produktionsumgebung daher viel Zeit in Anspruch nimmt. Mit Amazon SageMaker Data Wrangler können unsere Datenwissenschaftler jeden Schritt des Datenvorbereitungs-Workflows abschließen, einschließlich Datenauswahl, Bereinigung, Exploration und Visualisierung, was uns hilft, den Datenvorbereitungsprozess zu beschleunigen und unsere Daten einfach für ML vorzubereiten. Mit Amazon SageMaker Data Wrangler können wir Daten schneller für ML vorbereiten.“

Shigekazu Ohmoto, Senior Corporate Managing Director, NRI Japan

equilibrium
„Da sich unsere Präsenz auf dem Markt für bevölkerungsbezogenes Gesundheitsmanagement weiter auf immer mehr Gesundheitszahler, Leistungserbringer, Apothekenleistungsverwalter und andere Gesundheitswesenorganisationen ausdehnt, benötigten wir eine Lösung zur Automatisierung von End-to-End-Prozessen für Datenquellen, die unsere Modelle für ML füttern, einschließlich Anspruchsdaten, Registrierungsdaten und Apothekendaten. Mit Amazon SageMaker Data Wrangler können wir jetzt die Zeit zum Aggregieren und Vorbereiten von Daten für ML beschleunigen, indem wir eine Reihe von Workflows verwenden, die einfacher zu validieren und wiederzuverwenden sind. Dies hat die Lieferzeit und Qualität unserer Modelle dramatisch verbessert, die Effektivität unserer Datenwissenschaftler erhöht und die Datenvorbereitungszeit um fast 50 % reduziert. Darüber hinaus hat uns SageMaker Data Wrangler geholfen, mehrere Iterationen von ML und erhebliche GPU-Zeit zu sparen und den gesamten End-to-End-Prozess für unsere Kunden zu beschleunigen, da wir jetzt Data Marts mit Tausenden von Funktionen erstellen können, darunter Apotheken, Diagnosecodes, Notaufnahmebesuche, stationäre Patientenaufenthalte sowie demografische und andere soziale Determinanten. Mit SageMaker Data Wrangler können wir unsere Daten mit überlegener Effizienz zum Erstellen von Trainingsdatensätzen transformieren, Datenerkenntnisse in Datensätze generieren, bevor Modelle für ML ausgeführt werden und reale Daten für maßstabsgetreue Inferenz/Vorhersagen vorbereiten.“

Lucas Merrow, CEO, Equilibrium Point IoT

Erste Schritte mit SageMaker Data Wrangler

Blogs

BLOG

Beschleunigen Sie die Datenaufbereitung mit Datenqualität und Einblicken in Amazon SageMaker Data Wrangler

BLOG

Amazon SageMaker Data Wrangler unterstützt SaaS-Anwendungen als Datenquellen

Blog

Bereiten Sie Daten aus Databricks für Machine Learning mit Amazon SageMaker Data Wrangler vor

BLOG

Bereiten Sie Daten mit PySpark- und Altair-Codefragmenten in Amazon SageMaker Data Wrangler vor

BLOG

Importieren Sie Daten aus dem kontenübergreifenden Amazon Redshift nach Amazon SageMaker Data Wrangler

BLOG

Verwenden Sie Amazon SageMaker Data Wrangler in Amazon SageMaker Studio mit einer Standard-Lebenszyklus-Konfiguration

Praktische Übungen

Tutorial

Schritt-für-Schritt-Anleitung für die ersten Schritte mit SageMaker Data Wrangler

WORKSHOPS

Erfahren Sie, wie Sie SageMaker Data Wrangler für Anwendungsfälle nutzen können

Demo-Videos

Video

re:Invent 2022: Beschleunigen der Datenvorbereitung mit SageMaker Data Wrangler

re:Invent 2022: Beschleunigen der Datenvorbereitung (56:45)
VIDEO

Schnelle Vorbereitung von Daten für ML mit SageMaker Data Wrangler Virtual Workshop

Schnelle Vorbereitung von Daten für ML Virtual Workshop (1:18:08)
VIDEO

AWS on Air 2020: AWS Was als nächstes kommt, mit SageMaker Data Wrangler

AWS on Air 2020: AWS Was als nächstes kommt, mit SageMaker Data Wrangler (27:51)
VIDEO

SageMaker Data Wrangler Deep Dive Demo

SageMaker Data Wrangler Deep Dive Demo (28:13)

Neuerungen

  • Datum (neuestes bis ältestes)
Keine Ergebnisse gefunden
1