Veröffentlicht am: Oct 21, 2022
Wir freuen uns, heute die Möglichkeit des dynamischen Supports verschiedener auf S3 gespeicherter Datensätze durch die Verwendung von Parametern in Amazon SageMaker Data Wranglerbekannt geben zu können. Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Mit Data Wrangler kannst du den Prozess der Datenvorbereitung und des Feature Engineering vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -bereinigung, -erkundung und -visualisierung, über eine einzige visuelle Oberfläche abschließen. Bisher hatten Kunden keine einfache Möglichkeit, dynamisch auf Datensätze zu verweisen, wenn sie Verarbeitungsaufträge von Data Wrangler nach einem Zeitplan ausgeführt haben. Den Kunden fehlte auch eine Möglichkeit, Dateien in einem S3-Bucket für die Verarbeitung leichter herauszufiltern. Außerdem fehlte den Kunden eine einfache Möglichkeit, die Datenquellen zu ändern, wenn sie einen Verarbeitungsauftrag von Data Wrangler über den „Auftrag erstellen“-Workflow oder ein Verarbeitungsnotebook von Data Wrangler ausgeführt haben.
Mit dem Support für parametrisierte Datensätze in Data Wrangler kannst du Parameter zum Festlegen der Datensätze verwenden, die mit deinem Data-Wrangler-Flow verarbeitet werden sollen. Ein Parameter ist eine Variable, die du in deinem Data-Wrangler-Flow speichern kannst. Du kannst Parameter für das Datum und die Zeit angeben, um dich auf einen bestimmten Datums- und Zeitbereich von Datensätzen zu beziehen. Mit Musterparametern kannst du einen regulären Python-Ausdruck festlegen, der mit Dateinamen übereinstimmt, die einem bestimmten Muster entsprechen. String- oder Zahlenparameter können verwendet werden, um Dateinamen mit einem passenden String- oder Zahlenwert abzugleichen. Du kannst auf die Parameter in Data Wrangler zugreifen, indem du auf das Knotenmenü „+“ klickst und „Edit dataset“ (Datensatz bearbeiten) auswählst. Durch Hervorheben eines beliebigen Teils des S3-Pfads wird das Menü „Create custom parameter“ (Benutzerdefinierten Parameter erstellen) aufgerufen, mit dem sich leicht ein neuer Parameter hinzufügen lässt. Die vollständige Liste der Parameter kann durch Klicken auf das Symbol „{{ }}“ neben dem S3-Pfad aufgerufen werden.
Diese Funktion ist allgemein in allen AWS-Regionen, die Data Wrangler aktuell unterstützt, ohne zusätzliche Kosten verfügbar. Um mit der Planung deiner Datenverarbeitungsaufträge mit SageMaker Data Wrangler zu beginnen, lies die AWS-Dokumentation.