我如何使用 AWS Glue 工作流在爬网程序运行完成时自动启动作业?

1 分钟阅读
0

我想要使用 AWS Glue 工作流以在爬网程序运行完成时自动启动作业。

简短描述

要在爬网程序运行完成时启动作业,请创建一个 AWS Glue 工作流和两个触发器:一个用于爬网程序,一个用于作业。此方法需要您从 AWS Glue 控制台上的 Workflows(工作流)页面启动爬网程序。

**注意:**您还可以使用 AWS Lambda 函数和 Amazon EventBridge 规则来自动化作业运行。选择此选项时,Lambda 函数将始终处于开启状态。该函数监控爬网程序,无论您从何处或何时启动它。有关更多信息,请参阅我如何使用 Lambda 函数在爬网程序运行完成时自动启动 AWS Glue 作业?

解决方法

在完成以下步骤之前,请确保您拥有:

  • AWS Glue 提取、转换和加载 (ETL) 作业
  • AWS Glue 爬网程序
  • 适用于在其中附加了 AWSGlueServiceRole 策略的 AWS Glue 的 AWS Identity and Access Management (IAM) 角色

创建工作流

  1. 打开 AWS Glue 控制台
  2. 在导航窗格中,选择工作流,然后选择添加工作流
  3. 输入工作流的名称,然后选择添加工作流。新工作流将显示在工作流页面上的列表中。

为爬网程序创建触发器

  1. 工作流页面上,选择您的新工作流,然后选择图表选项卡。
  2. 选择添加触发器,然后选择新增选项卡。对于触发器类型,选择按需
  3. 选择添加。触发器显示在图表上。
  4. 在图表中,选择添加节点
  5. 爬网程序选项卡中,选择爬网程序,然后选择添加

为 AWS Glue 作业创建触发器

  1. 在图表上方的Action(操作)菜单上,选择 Add trigger(添加触发器)。
  2. 选择 Add new(添加)选项卡,然后选择以下选项:对于 Trigger type(触发器类型),选择 Event(事件)。对于 Trigger logic(触发器逻辑),选择 Start after ALL watched event(在 ALL 监视事件后开始)。
  3. 选择添加。触发器显示在图表上。
  4. 在图表上您刚创建的作业触发器的左侧,选择添加节点
  5. 爬网程序选项卡中,选择爬网程序,然后选择添加。触发器显示在图表上。
  6. 在图表上您刚创建的作业触发器的右侧,选择添加节点
  7. 作业 选项卡上,选择要在爬网程序运行完成时启动的作业,然后选择添加

测试工作流

  1. 操作菜单上添加工作流按钮旁边,选择运行上次运行状态列将更改为正在运行
  2. 检查图表选项卡以查看工作流的状态。或者,打开相应的爬网程序或作业,以确认它正在运行。

相关信息

在 AWS Glue 中手动创建和构建工作流

AWS 官方
AWS 官方已更新 2 年前