Veröffentlicht am: Oct 17, 2022
Wir freuen uns, heute die Unterstützung zur Neuanpassung von Transformationen mit Amazon SageMaker Data Wrangler bekannt zu geben. Damit Daten mit Algorithmen wie XgBoost verwendet werden können, müssen Datenwissenschaftler mit Transformationen, wie One-Hot-Codierung, nicht numerische Werte in numerische Werte umwandeln. Da Transformationen wie One-Hot-Codierung von den Daten abhängen, werden diese Transformationen häufig als aufbereitete angepasste Transformationen bezeichnet. Diese Transformationen müssen aktualisiert oder neu angepasst werden, um Änderungen an den Daten zu berücksichtigen, da sich die Daten im Laufe der Zeit ändern. Darüber hinaus müssen Transformationen, wenn Sie an einem Beispieldatensatz arbeiten, aktualisiert werden, um Änderungen zwischen einem Beispieldatensatz und dem größeren Datensatz zu berücksichtigen. Die Verwendung von Transformationen wie One-Hot-Codierung bringt zusätzliche Informationen mit sich, die in der Datenaufbereitungs-Pipeline verfolgt und erfasst werden müssen. Werden diese Informationen ausgelassen oder falsch verfolgt, kann dies zu Fehlern im Datenaufbereitungsvorgang führen. Ohne Unterstützung für die Neuanpassung von Transformationen hatten viele Datenwissenschaftler keine einfache Möglichkeit, anzugeben, wann an neuen Daten eine angepasste Version einer Transformation verwendet und wann die Transformation neu angepasst werden sollte. Datenwissenschaftlicher hatten außerdem keine einfache Möglichkeit, aktualisierte Versionen Ihrer Transformations-Pipelines zu generieren, wenn sie an neuen Datensätzen neu anpassten.
Data Wrangler verfolgt jetzt angepasste Transformationen in Datenabläufen für allen anwendbaren Transformationen. Diese angepassten Transformationen können jetzt verwendet werden, um neue Daten nach Bedarf leichter aufzubereiten. Benutzer können angeben, wann sie an ihren Daten Transformationen wiederverwenden oder neue Transformationen neu anpassen wollen. Die Neuanpassungsfunktion ist in der visuellen Benutzeroberfläche von Data Wrangler verfügbar, wenn ein Data-Wrangler-Verarbeitungsauftrag gestartet wird, sowie im Notebook für die Auftragserstellung. Wählen Sie einfach im Workflow für die Auftragserstellung unter „Trained parameters“ (Trainierte Parameter) „Refit“ (Neu anpassen) aus, um Transformationen in Ihrem Workflow neu anzupassen. Data Wrangler wird außerdem automatisch eine neue Flow-Datei erstellen, die aktualisierte Werte für neu angepasste Transformationen enthält.
Diese Funktion ist in allen AWS-Regionen, die Data Wrangler aktuell unterstützen, ohne Zusatzkosten allgemein verfügbar. Um mit SageMaker Data Wrangler zu beginnen, lesen Sie die AWS-Dokumentation.