Veröffentlicht am: Apr 1, 2022
Amazon SageMaker Data Wrangler reduziert die Zeit, die für die Aggregation und Vorbereitung von Daten für Machine Learning (ML) benötigt wird, von Wochen auf Minuten in Amazon SageMaker Studio, der ersten vollständig integrierten Entwicklungsumgebung (IDE) für ML. Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und des Feature-Engineerings vereinfachen, und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -Bereinigung, -Erkundung und -Visualisierung, über eine einzige visuelle Oberfläche abschließen. Sie können Daten aus verschiedenen Datenquellen wie Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift und Snowflake importieren. Ab heute können Sie Databricks als eine Datenquelle in SageMaker Data Wrangler verwenden, um Daten in Databricks einfach auf Machine Learning vorzubereiten. Databricks, ein AWS-Partner, hilft Unternehmen, ihre Daten auf die Analytik vorzubereiten, Datenwissenschaft und datengesteuerte Entscheidungen im gesamten Unternehmen zu ermöglichen und ML schnell einzuführen.
Mit Databricks als Datenquelle für SageMaker Data Wrangler können Sie jetzt schnell und einfach eine Verbindung zu Databricks herstellen, die in Databricks gespeicherten Daten interaktiv mit SQL abfragen und eine Vorschau der Daten vor dem Importieren anzeigen. Darüber hinaus können Sie Ihre Daten in Databricks mit den in Amazon S3 gespeicherten Daten und den über Amazon Athena, Amazon Redshift und Snowflake abgefragten Daten verbinden, um den richtigen Datensatz für Ihren ML-Anwendungsfall zu erstellen. Sobald Sie die Daten importiert haben, können Sie Ihre Daten mit den in SageMaker Data Wrangler integrierten Visualisierungen untersuchen und analysieren, um mögliche Fehler und Extremwerte zu erkennen. Sie können Ihre Daten schnell bereinigen und Funktionen mit mehr als 300 integrierten Datentransformationen entwickeln, einschließlich ML-spezifischer Transformationen wie One-Hot-Codierung und Datenausgleich, ohne eine einzige Zeile Code zu schreiben. Mit Amazon SageMaker Clarify können Sie auch Verzerrungen erkennen, Zielverfehlungen aufdecken, „Was-wäre-wenn“-Analysen mit einem schnellen Modell durchführen, um die Bedeutung von Funktionen und andere Datenqualitätsprobleme zu verstehen, die sich auf das ML-Modell auswirken, noch bevor Sie ML-Modelle trainieren und in der Produktion einsetzen. Schließlich können Sie die verarbeiteten Daten mit wenigen Klicks direkt in den Amazon SageMaker Feature Store oder zu Amazon S3 exportieren, um ML-Modelle mit SageMaker Autopilot oder SageMaker Training zu trainieren. Sie können Ihren Datenvorbereitungs-Workflow auch exportieren, um ihn mit größeren Datensätzen als SageMaker Verarbeitungsauftrag oder als Schritt in Amazon SageMaker Pipelines auszuführen.
Wenn Sie mehr über Databricks Integration mit SageMaker Data Wrangler erfahren möchten, lesen Sie unseren Blog oder die AWS-Dokumentation. Um mit SageMaker Data Wrangler zu beginnen, besuchen Sie unsere AWS-Dokumentation und die Preisseite.