如何确定在 Amazon EMR 群集中是使用引导操作还是使用步骤?

上次更新时间:2020 年 5 月 11 日

在 Amazon EMR 集群上运行引导操作或运行步骤的使用案例是什么?

简短描述

使用引导操作在 EMR 集群上安装其他软件。使用步骤向 EMR 集群提交工作,或者处理数据。

解决方法

引导操作

  • 引导操作在 EMR 集群从 STARTING 状态转变为 BOOTSTRAPPING 状态后运行。引导操作在 Hadoop 或 Spark 等核心服务安装之前执行。如果引导操作失败,则集群不会启动。有关更多信息,请参阅了解集群生命周期
  • 引导操作在所有集群节点上运行。引导操作指的是默认情况下以 Hadoop 用户身份运行的脚本,但它们也可以使用 sudo 命令以根用户身份运行。您可以基于 instance.jsonjob-flow.json 文件中的实例特定值将引导操作配置为有条件地运行命令

注意:在 Amazon EMR 2.x 和 3.x 版本中,引导操作在核心服务安装后执行。更高的 Amazon EMR 版本不支持 Amazon EMR AMI 版本 2.x 和 3.x 的大多数预定义引导操作。有关更多信息,请参阅创建引导操作以安装其他软件

步骤

  • 步骤是包含一个或多个 Hadoop 作业的工作单元。步骤通常用于传输或处理数据。一个步骤可能会提交工作至集群。其他步骤可能会处理提交的数据,然后将已处理的数据发送至特定位置。
  • 步骤在引导操作后开始,并且仅在主节点上运行。有关更多信息,请参阅运行步骤以处理数据
  • 在 Amazon EMR 发行版本 5.28.0 和更高版本中,您可以并行运行多个步骤。在较早的 Amazon EMR 发行版本中,步骤按照顺序完成其工作。
  • 当您配置步骤时,您可以选择步骤失败后会发生什么。

有关步骤的更多信息,请参阅使用 AWS CLI 和控制台执行步骤


这篇文章对您有帮助吗?

我们可以改进什么?


需要更多帮助?