Veröffentlicht am: Dec 8, 2022

Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) in Amazon SageMaker Studio von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und des Feature Engineerings vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -bereinigung, -erkundung und -visualisierung, über eine einzige visuelle Oberfläche abschließen. Ab heute können Sie eine Verbindung zu Amazon EMR Presto als großer Abfrage-Engine herstellen, um sehr große Datensätze zu erfassen und Daten visuell interaktiv innerhalb weniger Minuten in Data Wrangler für ML vorzubereiten.

Das Analysieren, Transformieren und Aufbereiten großer Datenmengen ist ein kritischer und zugleich auch der zeitaufwändigste Teil des ML-Workflows. Datenwissenschaftler und Data Engineers nutzen für eine groß angelegte Datenaufbereitung Apache Spark, Apache Hive und Presto, die auf Amazon EMR ausgeführt werden. Ab heute können Kunden eine visuelle Oberfläche verwenden, um bestehende EMR-Cluster zu entdecken und eine Verbindung zu ihnen herzustellen, auf denen der Presto-Endpunkt von Data Wrangler ausgeführt wird. Sie können die Datenbank, die Tabellen und das Schema durchsuchen und Presto-Abfragen erstellen, um einen Datensatz für ML auszuwählen, eine Vorschau anzuzeigen und ihn zu erstellen. Anschließend können sie die visuelle Oberfläche von Data Wrangler verwenden, um Daten mithilfe des Berichts zur Datenqualität und zu Erkenntnissen zu analysieren. Sie können die Daten dann bereinigen und Funktionen für ML erstellen, indem sie über 300 integrierte Transformationen verwenden, die von Spark unterstützt werden, ohne Code für Spark erstellen zu müssen. Dank der Integration mit SageMaker Autopilot können sie ML-Modelle automatisch trainieren und bereitstellen. Schließlich können sie eine Skalierung vornehmen, um sehr große Datensätze mit verteilten Verarbeitungsaufträgen zu verarbeiten, die Datenvorbereitung mithilfe der integrierten Planungsfunktion zu automatisieren und die Datenvorbereitung in Produktions-Workflows zum Trainieren oder für Inferenzen mit SageMaker Pipeline auszuführen.

Data Wrangler unterstützt EMR Presto in allen Regionen, die derzeit von Data Wrangler unterstützt werden, ohne zusätzliche Kosten. Weitere Informationen finden Sie in diesem Blogbeitrag und in der technischen Dokumentation von AWS.