Veröffentlicht am: Nov 30, 2022
Wir freuen uns, heute den Support für die Bereitstellung von in Data Wrangler erstellten Datenaufbereitungsflüssen in Echtzeit- und seriellen Batch-Inferenz-Pipelines sowie zusätzliche Konfigurationen für Data Wrangler-Verarbeitungsaufgaben in Amazon SageMaker Data Wrangler ankündigen zu können.
Amazon SageMaker Data Wrangler verkürzt die Zeit für die schnelle Prototypisierung und Bereitstellung von Datenverarbeitungs-Workloads in der Produktion und lässt sich über SageMaker Processing APIs einfach in CI/CD-Pipelines und MLOps-Produktionsumgebungen integrieren. Im Rahmen der Ausführung und Planung von Datenverarbeitungs-Workloads mit Data Wrangler zur Vorbereitung von Daten für das Training von ML-Modellen haben Kunden darum gebeten, die Einstellungen für Spark-Speicher und Ausgabepartitionen für ihre Datenvorbereitungs-Workloads im Maßstab anzupassen. Sobald Kunden ihre Daten verarbeiten und ein ML-Modell trainieren, müssen sie sowohl die Datentransformations-Pipeline als auch das ML-Modell hinter einem SageMaker-Endpunkt für Echtzeit-Inferenz- und Batch-Inferenz-Anwendungsfälle bereitstellen. Die Kunden müssen dann von Grund auf neue Datenverarbeitungsskripte für die Ausführung derselben Datenverarbeitungsschritte bei der Inferenz erstellen, die beim Training des Modells angewandt wurden, und nach der Bereitstellung ihres Modells müssen sie sicherstellen, dass ihre Trainings- und Bereitstellungsskripte synchron gehalten werden.
Mit dieser Version kannst du jetzt ganz einfach Spark-Speicherkonfigurationen und Ausgabepartitionsformate konfigurieren, während du eine Data-Wrangler-Verarbeitungsaufgabe zur Verarbeitung von Daten im großen Maßstab ausführst. Nachdem du deine Daten vorbereitet und ein ML-Modell trainiert hast, kannst du jetzt ganz einfach deine Datentransformations-Pipeline (auch „Datenfluss“ genannt) zusammen mit einem ML-Modell als Teil einer seriellen Inferenz-Pipeline sowohl für Batch- als auch für Echtzeit-Inferenzanwendungen bereitstellen. Außerdem kannst du jetzt deine Data-Wrangler-Datenflüsse bei SageMaker Model Registry registrieren. Du kannst damit beginnen, deinen Data-Wrangler-Flow für die Echtzeit-Inferenz einzusetzen, indem du in der Datenfluss-Ansicht in Data Wrangler auf „Export to > Inference Pipeline (via Jupyter Notebook)“ (Exportieren nach > Inferenzpipeline [über Jupyter Notebook]) klickst. Spark-Speichereinstellungen können jetzt als Teil des Workflows „Aufgabe erstellen“ und Partitionen als Teil der Zielknoteneinstellungen konfiguriert werden.
Diese Funktion ist in allen AWS-Regionen, die Data Wrangler aktuell unterstützen, ohne Zusatzkosten allgemein verfügbar. Lesen Sie zum Einstieg in SageMaker Data Wrangler den Blog und die AWS-Dokumentation.