Magesh 向您介绍
使用 AWS Data Pipeline 运行
并发 EMR 作业

concurrent-emr-jobs-data-pipeline-magesh

如何使用 AWS Data Pipeline,将多个 Amazon DynamoDB 表导出到 Amazon Simple Storage Service (Amazon S3) ? 我不想创建多个管道。

当使用 Export DynamoDB table to S3 template 时,您必须为每个想要备份的表创建单独的管道。要使用一个数据管道将多个 DynamoDB 表导出到 Amazon S3,可使用 HadoopActivity 对象提交并发 Amazon EMR 作业。要最大化 Amazon EMR 集群的资源利用率,可使用 FairSchedulerCapacityScheduler,具体视乎哪个更适用于您的使用案例。

  1. 登录到 Data Pipeline 控制台
  2. 选择 Create new pipeline,然后填写以下字段:
    对于 Name,输入名称。
    对于 Source,选择 Build using Architect
    对于 Run,选择 on pipeline activation
    对于 Logging,选择 EnabledDisabled,具体取决于您的使用案例。
  3. 选择 Edit in Architect
  4. 在左上角选择 Add,然后选择 HadoopActivity
  5. 打开 Activities 部分,并找到对象 HadoopActivity。它的名称类似于“DefaultHadoopActivity1”。
  6. 对于 Jar URI,输入 s3://dynamodb-emr-Region/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar。替换 Region 为 DynamoDB 表所在的区域,例如,us-east-1
  7. Add an optional field 列表中,选择 Argument。重复此步骤三次,以创建总共四个 Argument 字段。
  8. 在第一个 Argument 字段中,输入 org.apache.hadoop.dynamodb.tools.DynamoDbExport
  9. 在第二个 Argument 字段中,输入 Amazon S3 路径。这是 DynamoDB 表将导出到的位置。
    注意:DynamoDB 表和 S3 存储桶必须位于同一个 AWS 区域。
  10. 在第三个 Argument 字段中,输入 DynamoDB 表的名称(例如,Users)。
  11. 在第四个 Argument 字段中,输入 0.1 和 1.0 之间的值。这是 DynamoDB 读取吞吐量比率
  12. Add an optional field 下拉菜单中,选择 Runs On
  13. Runs On 下拉菜单中,选择 Create new: EmrCluster
  14. 为每个要导出的 DynamoDB 表重复步骤 4-12。
  15. 打开 Resources 部分并找到 Amazon EMR 集群对象。它的名称类似于“DefaultEmrCluster1”。
  16. Add an optional field 列表中添加以下字段:
    选择 Release Label,然后输入要使用的 Amazon EMR 发行版本,例如 emr-5.20.0。有关更多信息,请参阅关于 Amazon EMR 版本
    选择 Master Instance Type,然后输入适合您的使用案例的实例大小,例如 m5.xlarge
    选择 Core Instance Type,然后输入符合您的使用案例的实例大小。
    选择 Hadoop Scheduler Type,然后输入 PARALLEL_CAPACITY_SCHEDULINGPARALLEL_FAIR_SCHEDULING,具体取决于您希望集群资源如何分布。有关更多信息,请参阅 EmrCluster
  17. Resources 部分中的每个 Amazon EMR 集群重复步骤 16。
  18. 在左上角选择 Save,然后选择 Activate

如果您的 Amazon EMR 集群具有附加的 Amazon Elastic Compute Cloud (Amazon EC2) 密钥对,可以使用 SSH 连接到主节点 并运行 yarn application –list,以查看有多少应用程序正在运行。


此页面对您有帮助吗? |

返回 AWS Support 知识中心

需要帮助? 请访问 AWS 支持中心

发布时间:2016 年 10 月 4 日

更新时间:2019 年 2 月 26 日