Veröffentlicht am: Aug 22, 2023

Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) in Amazon SageMaker Studio von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie auf Daten aus einer Vielzahl beliebter Quellen (darunter Amazon S3, Amazon Athena, Amazon Redshift, Amazon EMR, Snowflake) und über 50 anderen Quellen von Drittanbietern zugreifen. Ab heute können Sie die rollenbasierte Zugriffskontrolle mit AWS Lake Formation in EMR-Hive- und -Presto-Verbindungen verwenden, um Datensätze für ML in SageMaker Data Wrangler zu erstellen. 

Sobald die Administratoren den rollenbasierten EMR-Zugriff mit Lake Formation konfiguriert und Datenzugriff auf die in SageMaker Studio verwendete IAM-Rolle gewährt haben, können Sie mit derselben IAM-Rolle eine Verbindung von SageMaker Data Wrangler zu EMR herstellen, indem Sie dieselbe IAM-Rolle verwenden, um sich bei Lake Formation zu authentifizieren und zu autorisieren. Sie können EMR-Hive- und -Presto-Verbindungen verwenden, um Daten in Ihrem von Lake Formation verwalteten S3 Data Lake zu durchsuchen und einen Datensatz für ML zu erstellen. Mithilfe der visuellen Oberfläche von SageMaker Data Wrangler können Sie anschließend schnell die Datenqualität verstehen, die Daten bereinigen und Features mit über 300 von Spark gestützten integrierten Analysen und Datentransformationen erstellen, ohne Code schreiben zu müssen. Von SageMaker Data Wrangler aus können Sie auch Modelle mit SageMaker Autopilot trainieren und bereitstellen und den Datenaufbereitungsprozess in einem Feature Engineering, Training oder einer Inferenz-Pipeline mithilfe der Integration mit SageMaker Pipeline operationalisieren. 

SageMaker Data Wrangler unterstützt EMR und Lake Formation in allen Regionen, die derzeit von Data Wrangler unterstützt werden. Weitere Informationen finden Sie in diesem Blog-Beitrag und in der technischen AWS-Dokumentation.