Como posso usar os fluxos de trabalho do AWS Glue para iniciar automaticamente um trabalho quando a execução do crawler for concluída?

3 minuto de leitura
0

Quero usar os fluxos de trabalho do AWS Glue para iniciar automaticamente um trabalho quando a execução do crawler for concluída.

Breve descrição

Para iniciar um trabalho quando a execução do crawler for concluída, crie um fluxo de trabalho do AWS Glue e dois gatilhos: um para o crawler e outro para o trabalho. Esse método exige que você inicie o crawler na página Fluxos de trabalho no console do AWS Glue.

Observação: você também pode usar uma função do AWS Lambda e uma regra do Amazon EventBridge para automatizar a execução de trabalhos. Quando você escolhe essa opção, a função do Lambda está sempre ativada. A função monitora o crawler independentemente de onde ou quando você inicia a função. Para mais informações, consulte Como posso usar uma função do Lambda para iniciar automaticamente um trabalho do AWS Glue quando a execução do crawler for concluída?

Resolução

Antes de concluir as etapas a seguir, verifique se você tem:

  • Um trabalho de extração, transformação e carregamento (ETL) do AWS Glue
  • Um crawler do AWS Glue
  • Uma função do AWS Identity and Access Management (IAM) para o AWS Glue que tem a política AWSGlueServiceRole anexada a ela

Crie o fluxo de trabalho

  1. Abra o console do AWS Glue.
  2. No painel de navegação, escolha Fluxos de trabalho e, em seguida, escolha Adicionar fluxo de trabalho.
  3. Insira um nome para o fluxo de trabalho e escolha Adicionar fluxo de trabalho. O novo fluxo de trabalho aparece na lista na página Fluxos de trabalho.

Crie o gatilho para o crawler

  1. Na página Fluxos de trabalho, selecione seu novo fluxo de trabalho e escolha a guia Gráfico.
  2. Escolha Adicionar gatilho e, em seguida, escolha a guia Adicionar novo. Em Tipo de gatilho, escolha Sob demanda.
  3. Escolha Adicionar. O gatilho aparece no gráfico.
  4. No gráfico, escolha Adicionar nó.
  5. Na guia Crawlers, selecione seu crawler e escolha Adicionar.

Crie o gatilho para o trabalho do AWS Glue

  1. No menu Ação acima do gráfico, escolha Adicionar gatilho.
  2. Escolha a guia Adicionar novo e, em seguida, selecione as seguintes opções: Em Tipo de gatilho, escolha Evento. Em Lógica do gatilho, escolha Iniciar depois de TODOS os eventos assistidos.
  3. Escolha Adicionar. O gatilho aparece no gráfico.
  4. No gráfico, à esquerda do gatilho da tarefa que você acabou de criar, escolha Adicionar nó.
  5. Na guia Crawlers, selecione seu crawler e escolha Adicionar. O gatilho aparece no gráfico.
  6. No gráfico, à direita do gatilho do trabalho que você acabou de criar, escolha Adicionar nó.
  7. Na guia Trabalhos, selecione o trabalho que você deseja iniciar quando a execução do crawler for concluída e escolha Adicionar.

Teste o fluxo de trabalho

  1. No menu Ações, ao lado do botão Adicionar fluxo de trabalho, escolha Executar. A coluna Status da última execução muda para Em execução.
  2. Verifique a guia Gráfico para ver o status do fluxo de trabalho. Ou abra seu crawler ou trabalho correspondente para confirmar que ele está em execução.

Informações relacionadas

Criação e construção manual de um fluxo de trabalho no AWS Glue

AWS OFICIAL
AWS OFICIALAtualizada há 2 anos