Veröffentlicht am: May 6, 2022
Amazon SageMaker Data Wrangler reduziert die Zeit, die für die Aggregation und Vorbereitung von Daten für Machine Learning (ML) benötigt wird, von Wochen auf Minuten in Amazon SageMaker Studio, der ersten vollständig integrierten Entwicklungsumgebung (IDE) für ML. Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und des Feature-Engineerings vereinfachen, und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -Bereinigung, -Erkundung und -Visualisierung, über eine einzige visuelle Oberfläche abschließen. SageMaker Data Wrangler läuft standardmäßig auf ml.m5.4xlarge. SageMaker Data Wrangler enthält integrierte Datentransformationen und -analysen, die in PySpark geschrieben wurden, so dass Sie große Datensätze (bis zu Hunderten von Gigabyte (GB) an Daten) auf der Standard-Instance effizient verarbeiten können.
Ab sofort können Sie zusätzliche M5- oder R5 Instance-Typen mit mehr CPU oder Arbeitsspeicher in SageMaker Data Wrangler verwenden, um die Leistung für Ihre Datenvorbereitungs-Workloads zu verbessern. Amazon-EC2-M5-Instances bieten ein ausgewogenes Verhältnis von Rechen-, Speicher- und Netzwerkressourcen für ein breites Spektrum von Workloads. Amazon-EC2-R5-Instances sind die arbeitsspeicheroptimierten Instances. Sowohl M5- als auch R5 Instance-Typen eignen sich gut für CPU- und speicherintensive Anwendungen, wie z. B. die Ausführung integrierter Transformationen für sehr große Datensätze (bis zu Terabyte (TB) Daten) oder die Anwendung benutzerdefinierter, in Panda geschriebener Transformationen auf mittlere Datensätze (bis zu einigen Dutzend GB).
Um mehr über die neu unterstützten Instanzen mit Amazon SageMaker Data Wrangler zu erfahren, besuchen Sie den Blog oder das AWS-Dokument und die Preisseite. Um mit SageMaker Data Wrangler zu beginnen, besuchen Sie die AWS-Dokumentation.