在 Amazon EMR 集群上运行引导操作或步骤的用例有哪些?

引导操作Amazon EMR 步骤用于在 Amazon EMR 集群中完成工作。它们之间的区别取决于它们在集群的生命周期中运行的时间和位置以及它们所执行的工作类型。

Bootstrap actions

理解集群的生命周期中所述,在 Amazon EMR 集群从 STARTING 状态过渡到 BOOTSTRAPPING 状态后,首先执行引导操作。在所有集群节点上运行的引导操作是默认情况下作为 Hadoop 用户运行的脚本,但它们也可以使用 sudo 命令以 root 用户身份运行。通过从控制台、AWS 命令行界面 (AWS CLI) 或 API 提供多个引导操作参数,您可以为每个集群指定最多 16 个引导操作。

引导操作可用于在集群上安装其他软件,并可配置为根据 instance.json 或 job-flow.json 文件中特定于实例的值有条件地运行命令。由于引导操作在安装 Hadoop 或 Spark 等核心服务之前执行,因此如果引导操作失败,集群将无法启动。

注意:在 Amazon EMR 的 AMI 版本 2.x 和 3.x 上,引导操作在安装 Hadoop 或 Spark 等核心服务后执行。Amazon EMR 版本 4.x 中不支持 Amazon EMR AMI版本 2.x 和 3.x 的大多数预定义引导操作。有关更多信息,请参阅创建引导操作以安装其他软件

步骤

步骤是一个独立的工作单元,包含一个或多个仅在 Amazon EMR 集群的主节点上运行的 Hadoop 作业。由于引导操作失败将导致集群无法启动,因此步骤必须始终在引导操作之后启动。步骤通常用于传输或处理数据。一个步骤可能向集群提交工作,其他步骤可能处理提交的数据,然后将处理后的数据发送到特定位置。步骤按顺序完成其工作,如运行步骤以处理数据中的图表所示。配置步骤时,您可以选择步骤失败后发生的情况,从而提供容错度量。有关创建步骤的更多信息,请参阅通过 AWS CLI 和控制台使用步骤


此页内容对您是否有帮助? |

返回 AWS Support 知识中心

需要帮助? 请访问 AWS 支持中心

发布时间:2016 年 10 月 28 日

更新时间:2018 年 9 月 7 日