Veröffentlicht am: Oct 22, 2019
Ab sofort können Sie Job-Lesezeichen für Glue Spark ETL-Jobs auf jede bereits abgeschlossene Job-Ausführung zurücksetzen. AWS Glue verfolgt Daten, die im Rahmen einer früheren Ausführung eines ETL-Jobs verarbeitet wurden, indem die Statusinformationen aus der Job-Ausführung gespeichert werden. Die dauerhaften Statusinformationen werden als Job-Lesezeichen bezeichnet.
Bislang konnten nur jene Job-Lesezeichen zurückgesetzt werden, bei denen im nachfolgenden Job alle in vorherigen Job-Ausführungen verarbeiteten Daten erneut verarbeitet wurden. Mit der neuen Funktion werden Datenauffüllszenarien vereinfacht. Sie können Job-Lesezeichen auf eine beliebige frühere Job-Ausführung zurücksetzen, was dazu führt, dass in der nachfolgenden Job-Ausführung nur die Daten aus der mit Lesezeichen versehenen Job-Ausführung erneut verarbeitet werden.
Diese Funktion wird nun in allen AWS-Regionen angeboten, in denen AWS Glue verfügbar ist, mit Ausnahme von AWS GovCloud (USA-Ost) und AWS GovCloud (USA-West).
Weitere Informationen zu dieser Funktion erhalten Sie in der Dokumentation.