Veröffentlicht am: Sep 22, 2022
Amazon SageMaker Data Wrangler reduziert in Amazon SageMaker Studio, der ersten vollständig integrierten Entwicklungsumgebung (IDE) für ML, die Zeit, die für die Aggregation und Vorbereitung von Daten für Machine Learning (ML) benötigt wird, von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und des Feature Engineering vereinfachen, und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -Bereinigung, -Erkundung und -Visualisierung, über eine einzige visuelle Oberfläche abschließen. Sie können Daten aus verschiedenen Datenquellen, wie Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Snowflake und 26 von Amazon Athena unterstützten Verbundabfrage-Datenquellen, importieren. Ab heute können Kunden, die Daten aus Athena-Datenquellen importieren, einen S3-Abfrageergebnisstandort und Datenaufbewahrungszeitraum konfigurieren, um zu kontrollieren, wo und wie lange Athena die Zwischendaten speichert.
Amazon Athena ist ein interaktiver Abfrageservice, der das Surchsuchen des Glue Data Catalog und die Analyse von Daten direkt in Amazon S3 und 26 Verbundabfragen-Datenquellen mit Standard-SQL-Tools erleichtert. Data Wrangler unterstützt Athena-Arbeitsgruppen, um einen benutzerdefinierten S3-Abfrageergebnisstandort bereitzustellen. Ab heute können Sie einen benutzerdefinierten S3-Standort für Athena-Abfrageergebnisse angeben oder weiter den vorhandenen Standard-Bucket in Data Wrangler verwenden. Die Standardaufbewahrungszeit für Athena-Abfrageergebnisse beträgt jetzt fünf Tage, um Speicherkosten zu kontrollieren. Sie können diesen Datenaufbewahrungszeitraum entsprechend Ihren Bedürfnissen und der Datensicherheitsrichtlinie Ihres Unternehmens anpassen. Wenn Sie die Daten über Athena importieren, können Sie die visuelle Benutzeroberfläche von Data Wrangler nutzen, um Daten aus mehreren Quellen zusammenzuführen und Ihre Daten mit einem Datenqualitäts- und Erkenntnisbericht und anderen integrierten Visualisierungen zu untersuchen und zu analysieren, um mögliche Fehler und Extremwerte zu ermitteln. Sie können Ihre Daten- und Engineering-Funktion mit über 300 integrierten Datentransformationen im Handumdrehen bereinigen. Sie können einen Auftrag zum Verarbeiten eines größeren Datensatzes erstellen oder einen SageMaker-Autopilot-Trainingsauftrag direkt aus Data Wrangler starten, um mit den vorbereiteten Daten automatisch das beste Modell für Ihr Geschäftsproblem zu finden.
Diese Funktionen sind in allen AWS-Regionen, die Data Wrangler aktuell unterstützen, ohne Zusatzkosten verfügbar. Um mit SageMaker Data Wrangler zu beginnen, besuchen Sie den Blog und die AWS-Dokumentation.