Veröffentlicht am: Sep 30, 2022
Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Amazon SageMaker Autopilot erstellt, trainiert und optimiert automatisch die besten Modelle für Machine Learning basierend auf deinen Daten und ermöglicht dir gleichzeitig die vollständige Kontrolle und Sichtbarkeit. Data Wrangler ermöglicht mit nur wenigen Klicken eine einheitliche Datenaufbereitung und Modellschulung mit Amazon SageMaker Autopilot. Diese Integration wurde jetzt erweitert, um die Funktionstransformationen von Data Wrangler, wie z. B. Anrechner fehlender Werte, ordinaler/One-Hot-Kodierer usw, zusammen mit den Modellen von Autopilot für ML-Inferenz aufzunehmen und wiederzuverwenden. Wenn du Daten in Data Wrangler vorbereitest und ein Modell durch Aufrufen von Autopilot trainierst, kannst du jetzt das trainierte Modell zusammen mit allen Funktionstransformationen von Data Wrangler als eine SageMaker-Pipeline für serielle Inferenz bereitstellen. Dies ermöglicht eine automatische Vorverarbeitung der Rohdaten mit der Wiederverwendung der Funktionstransformation von Data Wrangler zum Zeitpunkt der Inferenz. Diese Funktion wird derzeit nur für Data-Wrangler-Abläufe unterstützt, die keine Verknüpfung, Gruppierung nach, Verkettung und Zeitreihentransformationen verwenden.
Vor dieser Einführung war bei der Verwendung von Autopilot-Modellen, die anhand von vorbereiteten Daten von Data Wrangler trainiert wurden, eine Vorverarbeitung der zur Inferenz vorgelegten Daten in SageMaker Data Wrangler erforderlich. Eine solche Vorverarbeitung war notwendig, bevor du die Daten für die Inferenz sowohl im Echtzeit- als im Batch-Modus vorgelegt hast. Ab heute kannst du, nachdem du die Daten mit Data Wrangler vorbereitet und ein Modell in SageMaker Autopilot trainiert hast, entweder Batch-Prognosen machen, die Datenverarbeitungstransformationen enthalten, oder das trainierte Modell zusammen mit Transformationen von Data Wrangler hinter einem SageMaker-Endpunkt bereitstellen. Diese automatische Aufnahme von Datenverarbeitungstransformationen ermöglicht eine Inferenz, die die Notwendigkeit von manueller Datenvorverarbeitung abschafft, und ist sowohl für Echtzeit- als auch in Batch-Inferenz verfügbar.
Diese neue Erfahrung ist jetzt in allen Regionen verfügbar, in denen sowohl SageMaker Data Wrangler als auch SageMaker Autopilot verfügbar sind. Um zu beginnen, sieh dir Modelle automatisch auf deinen Daten-Flow trainieren an oder lies den Blog-Beitrag.