Veröffentlicht am: Mar 10, 2023
Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) in Amazon SageMaker Studio von Wochen auf Minuten. Mit Data Wrangler können Sie auf Daten aus einer Vielzahl beliebter Quellen (Amazon S3, Amazon Athena, Amazon Redshift, Amazon EMR Presto, Snowflake) und über 40 anderen Quellen von Drittanbietern zugreifen. Ab heute können Sie eine Verbindung zu Amazon EMR Hive als Abfrage-Engine für Big Data herstellen, um sehr große Datensätze für ML bereitzustellen.
Das Zusammenführen und Vorbereiten großer Datenmengen ist ein wichtiger Bestandteil des ML-Workflows. Datenwissenschaftler und Data Engineers nutzen für eine groß angelegte Datenverarbeitung Apache Spark, Apache Hive und Presto, die auf Amazon EMR ausgeführt werden. Ab heute können Kunden die visuelle Oberfläche von Data Wrangler verwenden, um bestehende EMR-Cluster, auf denen der Hive-Endpunkt ausgeführt wird, zu entdecken und eine Verbindung zu ihnen herzustellen. Sie können die Datenbank, die Tabellen und das Schema durchsuchen und Hive-Abfragen erstellen, um mithilfe des SQL Explorers von Data Wrangler einen Datensatz auszuwählen, in der Vorschau anzuzeigen und zu erstellen. Anschließend können sie Daten visuell analysieren und ML-Funktionen erstellen, ohne Code schreiben zu müssen. Hierzu stehen ihnen über 300 integrierte Analysen und Transformationen auf Basis von Spark zur Verfügung. Kunden können außerdem das Modell mit SageMaker Autopilot trainieren und bereitstellen, Jobs planen oder die Datenvorbereitung über die visuelle Oberfläche von Data Wrangler in einer SageMaker Pipeline operationalisieren.
Data Wrangler unterstützt EMR Hive in allen Regionen, die derzeit von Data Wrangler unterstützt werden. Weitere Informationen finden Sie in diesem Blogbeitrag und in der technischen Dokumentation von AWS.