Veröffentlicht am: Nov 30, 2022

Heute kündigt AWS die allgemeine Verfügbarkeit von Amazon SageMaker Data Wrangler an, das über 40 Anwendungen von Drittanbietern als Datenquellen für Machine Learning (ML) durch die Integration mit Amazon AppFlow unterstützt. Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Die Aufbereitung hochwertiger Daten für ML ist oft komplex und zeitaufwändig, da sie die Aggregation von Daten aus verschiedenen Quellen und Formaten mit unterschiedlichen Tools erfordert. Mit SageMaker Data Wrangler können Sie Daten aus einer Vielzahl beliebter Quellen wie Amazon S3, Amazon Athena, Amazon Redshift, Snowflake, Databricks und Salesforce Customer Data Platform untersuchen und importieren. Ab heute erleichtern wir unseren Kunden die Aggregation von Daten für ML aus über 40 Anwendungsdatenquellen von Drittanbietern, darunter Salesforce Marketing, SAP, Google Analytics, LinkedIn und mehr über Amazon AppFlow. 

Amazon AppFlow ist ein vollständig verwalteter Service, der es Kunden ermöglicht, Daten aus Anwendungen von Drittanbietern sicher an AWS-Services wie Amazon S3 zu übertragen und die Daten mit nur wenigen Klicks im AWS Glue Data Catalog zu katalogisieren. Sobald die Datenquellen in AppFlow eingerichtet sind, können Sie Tabellen und Schemata aus diesen Datenquellen mit dem Data Wrangler SQL-Explorer durchsuchen. Sie können Athena-Abfragen zur Datenvorschau schreiben, um sicherzustellen, dass die Daten für Ihre Anwendungsfälle relevant sind, und Daten importieren, um das ML-Modelltraining vorzubereiten. Sie können auch Daten aus mehreren Quellen nach dem Import zusammenführen, um den richtigen Datensatz für ML zu erstellen. Sobald die Daten importiert sind, können Sie die Datenqualität schnell erfassen, die Daten bereinigen und mit über 300 integrierten Analyse- und Datenumwandlungsfunktionen Funktionen erstellen. Sie können auch Modelle mit SageMaker Autopilot trainieren und einsetzen und den Datenaufbereitungsprozess in einer Feature-Engineering-, Trainings- oder Einsatzpipeline operationalisieren, indem Sie die Integration mit SageMaker Pipeline von Data Wrangler nutzen.

Data Wrangler unterstützt über 40 Datenquellen von Drittanbietern in allen Regionen, die derzeit von AppFlow unterstützt werden. Diese Funktion ist neben den Kosten für Data Wrangler und AppFlow ohne zusätzliche Kosten verfügbar.

Für die ersten Schritte empfehlen wir die folgenden Ressourcen: