Magesh が次の内容を説明します
同時実行 EMR ジョブの実行
AWS Data Pipeline の使用

concurrent-emr-jobs-data-pipeline-magesh

AWS Data Pipeline を使用して複数の Amazon DynamoDB テーブルを Amazon Simple Storage Service (Amazon S3) にエクスポートする方法を教えてください。 複数のパイプラインを作成したくありません。

「DynamoDB テーブルを S3 にエクスポートする」テンプレートを使用する場合は、バックアップするテーブルごとに個別のパイプラインを作成する必要があります。1 つのデータ パイプラインを使用して複数の DynamoDB テーブルを Amazon S3 にエクスポートするには、HadoopActivity オブジェクトを使用して同時実行 Amazon EMR ジョブを送信します。Amazon EMR クラスターのリソース使用量を最大限にするには、FairScheduler または CapacityScheduler のどちらかを使用します。どちらのユースケースも最適な方法です。

  1. Data Pipeline コンソールにサインインします。
  2. [新規パイプラインの作成] を選択して、以下のフィールドに入力します。
    [名前] に名前を入力します。
    [ソース] で、[アーキテクトを使用して構築] を選択します。
    [実行] で、[パイプラインのアクティブ化] を選択します。
    [ログ記録] では、ユースケースに応じて [有効] または [無効] を選択します。
  3. [アーキテクトで編集] を選択します。
  4. 左上隅にある [追加]HadoopActivity を順に選択します。
  5. [アクティビティ] セクションを開き、HadoopActivity オブジェクトを見つけます。「DefaultHadoopActivity1」などと呼ばれるものです。
  6. Jar URI には、s3://dynamodb-emr-Region/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar と入力します。Region を、us-east-1 など DynamoDB テーブルがあるリージョンに置き換えます。
  7. [オプションのフィールドを追加] リストで、[引数] を選択します。この手順を 3 回繰り返して、合計 4 つの [引数] フィールドを作成します。
  8. 最初の [引数] フィールドに org.apache.hadoop.dynamodb.tools.DynamoDbExport を入力します。
  9. 2 番目の [引数] フィールドに、Amazon S3 のパスを入力します。これは DynamoDB テーブルがエクスポートされる場所です。
    注: DynamoDB テーブルと S3 バケットが同じ AWS リージョンに存在する必要があります。
  10. 3 番目の [引数] フィールドに、DynamoDB テーブルの名前 (Users など) を入力します。
  11. 4 番目の [引数] フィールドに、0.1 と 1.0 の間にある値を入力します。これは DynamoDB の読み取りスループット率です。
  12. [オプションのフィールドを追加] ドロップダウンメニューで、[実行] を選択します。
  13. [実行] ドロップダウンメニューで、[新規作成: EmrCluster] を選択します。
  14. エクスポートする各 DynamoDB テーブルについて、手順 4〜12 を繰り返します。
  15. 「リソース」セクションを開き、Amazon EMR クラスターのオブジェクトを見つけます。「DefaultEmrCluster1」などと呼ばれるものです。
  16. [オプションのフィールドを追加] リストから以下のフィールドを追加します。
    [リリース ラベル] を選択し、使用する Amazon EMR のリリースバージョンを入力します (例: emr-5.20.0)。詳細については、「Amazon EMR リリースについて」を参照してください。
    [マスター インスタンスタイプ] を選択し、ユースケースに合ったインスタンスサイズ (m5.xlarge など) を入力します。
    [コア インスタンスタイプ] を選択し、ユースケースに合ったインスタンスサイズを入力します。
    Hadoop スケジューラ タイプを選択し、クラスター リソースの分散方法に応じて、PARALLEL_CAPACITY_SCHEDULING または PARALLEL_FAIR_SCHEDULING を入力します。詳しくは、「EmrCluster」 を参照してください。
  17. 「リソース」セクションの各 Amazon EMR クラスターに対して手順 16 を繰り返します。
  18. 左上隅の [保存][アクティブ化] を順に選択します。

Amazon EMR クラスターに Amazon Elastic Compute Cloud (Amazon EC2) のキーペアが接続されている場合は、SSH を使用してマスターノードに接続し、yarn application –list を実行して、実行中のアプリケーション数を確認できます。


このページは役に立ちましたか? はい | いいえ

AWS サポート ナレッジ センターに戻る

サポートが必要ですか? AWS サポートセンターをご覧ください

公開日: 2016 年 10 月 4 日

更新日: 2019 年 2 月 26 日