Wie kann ich AWS Glue-Workflows verwenden, um automatisch einen Job zu starten, wenn ein Crawler-Lauf abgeschlossen ist?

Lesedauer: 3 Minute
0

Ich möchte AWS Glue-Workflows verwenden, um automatisch einen Job zu starten, wenn ein Crawler-Lauf abgeschlossen ist.

Kurzbeschreibung

Wenn Sie einen Job zu starten, nachdem ein Crawler-Lauf abgeschlossen ist, erstellen Sie einen AWS Glue-Workflow und zwei Trigger: einen für den Crawler und einen für den Job. Bei dieser Methode müssen Sie den Crawler von der Workflow-Seite der AWS Glue-Konsole aus starten.

**Hinweis:**Sie können auch eine AWS Lambda-Funktion und eine Amazon EventBridge-Regel für die Automatisierung der Auftragsausführungen verwenden. Wenn Sie diese Option wählen, ist die Lambda-Funktion immer aktiviert. Die Funktion überwacht den Crawler unabhängig davon, wo oder wann Sie die Funktion starten. Weitere Informationen finden Sie unter Wie kann ich eine Lambda-Funktion verwenden, um automatisch einen AWS Glue-Job zu starten, wenn ein Crawler-Lauf abgeschlossen ist?

Behebung

Bevor Sie die folgenden Schritte ausführen, stellen Sie sicher, dass Sie über Folgendes verfügen:

  • Ein AWS Glue Extract, Transform, Load (ETL)-Auftrag
  • Ein AWS Glue-Crawler
  • Eine AWS Identity and Access Management (IAM)-Rolle für AWS Glue, der die AwsGlueServiceRole-Richtlinie zugeordnet ist

Den Workflow erstellen

  1. Öffnen Sie die AWS-Glue-Konsole.
  2. Wählen Sie im Navigationsbereich Workflows und dann Workflow hinzufügen aus.
  3. Geben Sie einen Namen für den Workflow ein und wählen Sie dann Workflow hinzufügen aus. Der neue Workflow wird in der Liste auf der Seite Workflows angezeigt.

Erstellen Sie den Trigger für den Crawler

  1. Wählen Sie auf der Seite Workflows Ihren neuen Workflow aus und wählen Sie dann die Registerkarte Graph (Diagramm) aus.
  2. Wählen Sie Trigger hinzufügen und wählen Sie dann die Registerkarte Add new (Neu hinzufügen) aus. Wählen Sie als Triggertyp die Option On demand (Auf Anfrage) aus.
  3. Wählen Sie Add (Hinzufügen) aus. Der Trigger erscheint in der Grafik.
  4. Wählen Sie in der Grafik Add node (Knoten hinzufügen) aus.
  5. Wählen Sie auf der Registerkarte Crawler Ihren Crawler aus und wählen Sie dann Add (Hinzufügen).

Den Trigger für den AWS Glue-Auftrag erstellen

  1. Wählen Sie im Menü Aktion über dem Diagramm die Option Trigger hinzufügen aus.
  2. Wählen Sie die Registerkarte Add new(Neu hinzufügen) und wählen Sie dann die folgenden Optionen aus: Wählen Sie als Triggertyp die Option Event aus. Wählen Sie für Trigger-Logik die Option Start after ALL watched event (Start nach ALLEN beobachteten Ereignissen) aus.
  3. Wählen Sie Add (Hinzufügen) aus. Der Trigger erscheint in der Grafik.
  4. Wählen Sie im Diagramm links neben dem Auftrags-Trigger, den Sie gerade erstellt haben, die Option Add node (Knoten hinzufügen) aus.
  5. Wählen Sie auf der Registerkarte Crawler Ihren Crawler aus und wählen Sie dann Add (Hinzufügen). Der Trigger erscheint in der Grafik.
  6. Wählen Sie im Diagramm rechts neben dem Auftrags-Trigger, den Sie gerade erstellt haben, die Option Add node (Knoten hinzufügen) aus.
  7. Wählen Sie auf der Registerkarte Auftrag den Auftrag aus, den Sie starten möchten, wenn der Crawler-Lauf abgeschlossen ist, und wählen Sie dann Hinzufügen.

Testen Sie den Workflow

  1. Wählen Sie im Menü Aktionen neben der Schaltfläche Workflow hinzufügen die Option Run (Ausführen) aus. Die Spalte Status Letzter Lauf wechselt zu Wird ausgeführt.
  2. Prüfen Sie auf der Registerkarte Diagramm den Status des Workflows. Oder öffnen Sie Ihren entsprechenden Crawler oder Auftrag, um zu überprüfen, ob er läuft.

Weitere Informationen

Manuelles Erstellen und Entwickeln eines Workflows in AWS Glue

AWS OFFICIAL
AWS OFFICIALAktualisiert vor 2 Jahren