Amazon EMR クラスターでブートストラップアクションを使用するか、ステップを使用するかを判断するにはどうすればよいですか?

所要時間1分
0

Amazon EMR クラスターでブートストラップアクションを実行したり、ステップを実行したりするユースケースにはどのようなものがありますか。

簡単な説明

ブートストラップアクションを使用して、EMR クラスターにソフトウェアを追加でインストールします。ステップを使用して、EMR クラスターに作業を送信、またはデータを処理します。

解決方法

ブートストラップアクション

  • ブートストラップアクションは、EMR クラスターが STARTING 状態から BOOTSTRAPPING 状態に移行した後に、最初に実行されます。ブートストラップアクションは、Hadoop や Spark などのコアサービスがインストールされる前に実行します。ブートストラップアクションが失敗した場合、クラスターは起動しません。詳細については、クラスターライフサイクルについてを参照してください。
  • ブートストラップアクションは、すべてのクラスターノードで実行されます。ブートストラップアクションは、デフォルトで Hadoop ユーザーとして実行されるスクリプトですが、sudo コマンドを使用してルートユーザーとして実行することもできます。instance.json または job-flow.json ファイルのインスタンス固有の値に基づいて、条件付きでコマンドを実行するようにブートストラップアクションを設定できます。

注: Amazon EMR 2.x および 3.x リリースでは、ブートストラップアクションはコアサービスのインストール後に実行されます。Amazon EMR AMI バージョン 2.x および 3.x 用に事前定義されたブートストラップアクションのほとんどは、それ以降の Amazon EMR リリースではサポートされません。詳細については、「「ブートストラップアクションを作成して追加のソフトウェアをインストールする」を参照してください。

ステップ

  • ステップは、1 つ以上の Hadoop ジョブを含む作業単位です。ステップは通常、データを転送または処理するために使用されます。1 つのステップでクラスターに作業を送信できます。他のステップでは、送信されたデータが処理され、処理されたデータが特定の場所に送信される場合があります。
  • ステップはブートストラップアクションの後に開始し、マスターノードでのみ実行します。詳細については、「ステップの実行によるデータの処理」をご参照ください。
  • Amazon EMR リリースバージョン 5.28.0 以降では、複数のステップを並行して実行できます。以前の Amazon EMR リリースバージョンでは、ステップは作業を順に完了していきます。
  • ステップを設定する際に、ステップが失敗した後の処理を選択できます。

ステップの詳細については、AWS CLI およびコンソールを使用してステップを操作するを参照してください。


関連情報

StepExecutionStatusDetail

クラスターの計画と構成

AWS公式
AWS公式更新しました 2年前