Amazon EMR クラスターでブートストラップアクションを使用するか、ステップを使用するかを判断するにはどうすればよいですか?

最終更新日: 2020 年 5 月 11 日

Amazon EMR クラスターでブートストラップアクションを実行したり、ステップを実行したりするユースケースにはどのようなものがありますか?

簡単な説明

ブートストラップアクションを使用して、EMR クラスターにソフトウェアを追加でインストールします。ステップを使用して、EMR クラスターに作業を送信、またはデータを処理します。

解決方法

ブートストラップアクション

  • ブートストラップアクションは、EMR クラスターが STARTING 状態から BOOTSTRAPPING 状態に移行した後に、最初に実行されます。ブートストラップアクションは、Hadoop や Spark などのコアサービスがインストールされる前に実行します。ブートストラップアクションが失敗した場合、クラスターは起動しません。詳細については、「クラスターライフサイクルについて」をご参照ください。
  • ブートストラップアクションは、すべてのクラスターノードで実行されます。ブートストラップアクションは、デフォルトで Hadoop ユーザーとして実行されるスクリプトですが、sudo コマンドを使用してルートユーザーとして実行することもできます。instance.json または job-flow.json ファイルのインスタンス固有の値に基づいて、条件付きでコマンドを実行するようにブートストラップアクションを設定できます。

注意: Amazon EMR 2.x および 3.x リリースでは、ブートストラップアクションはコアサービスのインストール後に実行されます。Amazon EMR AMI バージョン 2.x および 3.x 用に事前定義されたブートストラップアクションのほとんどは、それ以降の Amazon EMR リリースではサポートされません。詳細については、追加ソフトウェアをインストールするためのブートストラップアクションを作成するを参照してください。

ステップ

  • ステップは、1 つ以上の Hadoop ジョブを含む作業単位です。ステップは通常、データを転送または処理するために使用されます。1 つのステップでクラスターに作業を送信できます。他のステップでは、送信されたデータが処理され、処理されたデータが特定の場所に送信される場合があります。
  • ステップはブートストラップアクションの後に開始し、マスターノードでのみ実行します。詳細については、「ステップの実行によるデータの処理」をご参照ください。
  • Amazon EMR リリースバージョン 5.28.0 以降では、複数のステップを並行して実行できます。以前の Amazon EMR リリースバージョンでは、ステップは作業を順に完了していきます。
  • ステップを設定する際に、ステップが失敗した後の処理を選択できます。

ステップの詳細については、AWS CLI およびコンソールを使用してステップを操作するを参照してください。


この記事はお役に立ちましたか?

改善できることはありますか?


さらにサポートが必要な場合