Come posso usare i flussi di lavoro AWS Glue per avviare automaticamente un processo al termine di un'esecuzione del crawler?

3 minuti di lettura
0

Desidero utilizzare i flussi di lavoro AWS Glue per avviare automaticamente un processo al termine di un'esecuzione del crawler.

Descrizione breve

Per avviare un processo al termine di un'esecuzione del crawler, crea un flusso di lavoro AWS Glue e due trigger: uno per il crawler e uno per il processo. Questo metodo richiede l’avvio del crawler dalla pagina Flussi di lavoro della console AWS Glue.

Nota: puoi anche utilizzare una funzione AWS Lambda e una regola Amazon EventBridge per automatizzare l'esecuzione dei processi. Quando scegli questa opzione, la funzione Lambda è sempre attiva. La funzione esegue il monitoraggio del crawler, indipendentemente da dove o quando la si avvia. Per ulteriori informazioni, consulta How can I use a Lambda function to automatically start an AWS Glue job when a crawler run completes?

Risoluzione

Prima di completare i seguenti passaggi, assicurati di avere:

  • Un processo di estrazione, trasformazione e caricamento (ETL) AWS Glue
  • Un crawler AWS Glue
  • Un ruolo AWS Identity and Access Management (IAM) per AWS Glue a cui è associata la policy AWSGlueServiceRole

Creazione del flusso di lavoro

  1. Apri la console AWS Glue.
  2. Nel riquadro di navigazione, scegli Flussi di lavoro, quindi scegli Aggiungi flusso di lavoro.
  3. Inserisci un nome per il flusso di lavoro, quindi scegli Aggiungi flusso di lavoro. Il nuovo flusso di lavoro viene visualizzato nell'elenco della pagina Flussi di lavoro.

Creazione del trigger per il crawler

  1. Nella pagina Flussi di lavoro, seleziona il nuovo flusso di lavoro, quindi scegli la scheda Grafico.
  2. Scegli Aggiungi trigger, quindi scegli la scheda Aggiungi nuovo. Per Tipo di trigger, scegli On demand.
  3. Scegli Aggiungi. Il trigger viene visualizzato nel grafico.
  4. Nel grafico, scegli Aggiungi nodo.
  5. Nella scheda Crawler, seleziona il tuo crawler, quindi scegli Aggiungi.

Creazione del trigger per il processo AWS Glue

  1. Nel menu Operazione sopra il grafico, scegli Aggiungi trigger.
  2. Scegli la scheda Aggiungi nuovo, quindi seleziona le seguenti opzioni: Per Tipo di trigger, scegli Evento. Per Logica trigger, scegli Avvia dopo l'evento ALL (tutti) osservato.
  3. Scegli Aggiungi. Il trigger viene visualizzato nel grafico.
  4. Nel grafico, a sinistra del trigger del processo che hai appena creato, scegli Aggiungi nodo.
  5. Nella scheda Crawler, seleziona il tuo crawler, quindi scegli Aggiungi. Il trigger viene visualizzato nel grafico.
  6. Nel grafico, a destra del trigger del processo che hai appena creato, scegli Aggiungi nodo.
  7. Nella scheda Lavori, seleziona il processo che desideri avviare al termine dell'esecuzione del crawler, quindi scegli Aggiungi.

Verifica del flusso di lavoro

  1. Nel menu Operazioni, accanto al pulsante Aggiungi flusso di lavoro, scegli Esegui. La colonna Stato dell’ultima esecuzione diventa In esecuzione.
  2. Controlla la scheda Grafico per vedere lo stato del flusso di lavoro. Oppure, apri il crawler o il processo corrispondente per confermare che sia in esecuzione.

Informazioni correlate

Creating and building out a workflow manually in AWS Glue

AWS UFFICIALE
AWS UFFICIALEAggiornata 2 anni fa