Veröffentlicht am: Nov 2, 2023

Sie können Amazon SageMaker Data Wrangler jetzt über Amazon EMR Studio starten, um von codearmer Datenvorbereitung für Machine Learning (ML) zu profitieren. Amazon EMR ist die cloudbasierte Big-Data-Lösung für Datenverarbeitung im Petabyte-Bereich, interaktive Analysen und Machine Learning unter Verwendung von Open-Source-Frameworks wie Apache Spark, Apache Hive und Presto. Amazon SageMaker Data Wrangler reduziert die Zeit, die zum Aggregieren und Aufbereiten von Daten für Machine Learning (ML) benötigt wird, von Wochen auf Minuten. Die neue Integration bietet eine vereinfachte Erfahrung beim Starten von SageMaker Data Wrangler aus EMR Studio, um Daten für ML vorzubereiten, ohne Code schreiben zu müssen.

Das Analysieren, Transformieren und Aufbereiten großer Datenmengen ist ein kritischer und zugleich auch der zeitaufwändigste Teil des ML-Workflows. Ab heute können Kunden SageMaker Data Wrangler von EMR Studio aus starten, um bestehende EMR-Cluster zu erkennen und eine Verbindung zu ihnen herzustellen. Anschließend können sie die visuelle Oberfläche von Data Wrangler verwenden, um Daten mithilfe des Datenqualitäts- und Insights-Berichts zu analysieren, Daten zu bereinigen und mithilfe von über 300 Transformationen, die von Spark unterstützt werden, Funktionen für ML zu erstellen. Sie können skalieren, um sehr große Datensätze mit verteilten Verarbeitungsaufträgen zu verarbeiten, die Datenvorbereitung mithilfe integrierter Planungsfunktionen automatisieren oder eine Integration mit SageMaker Pipeline erstellen, um einen durchgängigen Trainings- oder Inferenzworkflow zu ermöglichen. Sie können ML-Modelle auch automatisch trainieren und bereitstellen, indem sie die visuelle Schnittstelle mit der SageMaker-Autopilot-Integration von SageMaker Data Wrangler verwenden. 

Die neue Integration ist in allen kommerziellen Regionen verfügbar, in denen EMR und SageMaker Data Wrangler verfügbar sind. Weitere Informationen finden Sie in der technischen Dokumentation von AWS.