Magesh 씨가 AWS Data Pipeline에서
동시 EMR 작업을 실행하는 과정을
안내합니다.

concurrent-emr-jobs-data-pipeline-magesh

AWS Data Pipeline을 사용하여 여러 Amazon DynamoDB 테이블을 Amazon Simple Storage Service(Amazon S3)로 내보내려면 어떻게 해야 합니까? 파이프라인을 여러 개 생성하고 싶지는 않습니다.

DynamoDB 테이블을 S3로 내보내기 템플릿을 사용하는 경우 백업하려는 각 테이블에 대한 개별 파이프라인을 생성해야 합니다. Data Pipeline을 사용하여 여러 DynamoDB 테이블을 Amazon S3로 내보내려면 HadoopActivity 객체를 사용하여 동시 Amazon EMR 작업을 제출합니다. Amazon EMR 클러스터의 리소스 사용량을 최적화하려면 FairScheduler 또는 CapacityScheduler 중에서 사용 사례에 가장 적합한 객체를 사용합니다.

  1. Data Pipeline 콘솔에 로그인합니다.
  2. [Create new pipeline]을 선택하고 다음 필드를 입력합니다.
    [Name]에는 이름을 입력합니다.
    [Source]의 경우 [Build using Architect]를 선택합니다.
    [Run]에 대해 [on pipeline activation]을 선택합니다.
    [Logging]에서는 사용 사례에 따라 [Enabled] 또는 [Disabled]를 선택합니다.
  3. [Edit in Architect]를 선택합니다.
  4. 왼쪽 위에서 [Add]를 선택하고 [HadoopActivity]를 선택합니다.
  5. [Activities] 섹션을 열고 HadoopActivity 객체를 찾습니다. 객체의 이름은 "DefaultHadoopActivity1"과 같은 것일 수 있습니다.
  6. [Jar URI]에 s3://dynamodb-emr-Region/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar을 입력합니다. [Region]을 DynamoDB 테이블이 있는 리전(예: us-east-1)으로 바꿉니다.
  7. [Add an optional field] 목록에서 [Argument]를 선택합니다. 이 단계를 세 번 반복하여 총 4개의 [Argument] 필드를 생성합니다.
  8. 첫 번째 [Argument] 필드에 org.apache.hadoop.dynamodb.tools.DynamoDbExport를 입력합니다.
  9. 두 번째 [Argument] 필드에 Amazon S3 경로를 입력합니다. 이 경로는 DynamoDB 테이블을 내보낼 위치를 나타냅니다.
    참고: DynamoDB 테이블과 S3 버킷은 동일한 AWS 리전에 있어야 합니다.
  10. 세 번째 [Argument] 필드에 DynamoDB 테이블의 이름(예: Users)을 입력합니다.
  11. 네 번째 [Argument] 필드에 0.1~1.0 사이의 값을 입력합니다. 이 값은 DynamoDB 읽기 처리량 비율을 나타냅니다.
  12. [Add an optional field] 드롭다운 메뉴에서 [Runs On]을 선택합니다.
  13. [Runs On] 드롭다운 메뉴에서 [Create new: EmrCluster]를 선택합니다.
  14. 내보내려는 각 DynamoDB 테이블에 대해 4~12단계를 반복합니다.
  15. [Resources] 섹션을 열고 Amazon EMR 클러스터 객체를 찾습니다. 객체의 이름은 "DefaultEmrCluster1"과 같은 것일 수 있습니다.
  16. [Add an optional field] 목록에서 다음 필드를 추가합니다.
    [Release Label]을 선택하고 사용하려는 Amazon EMR 릴리스 버전(예: emr-5.20.0)을 입력합니다. 자세한 내용은 Amazon EMR 릴리스 정보를 참조하십시오.
    [Master Instance Type]을 선택하고 사용 사례에 적합한 인스턴스 크기(예: m5.xlarge)를 입력합니다.
    [Core Instance Type]을 선택하고 사용 사례에 적합한 인스턴스 크기를 입력합니다.
    [Hadoop Scheduler Type]을 선택하고 클러스터 리소스의 배포 방식에 따라 PARALLEL_CAPACITY_SCHEDULING 또는 PARALLEL_FAIR_SCHEDULING을 선택합니다. 자세한 내용은 EmrCluster를 참조하십시오.
  17. [Resources] 섹션의 각 Amazon EMR 클러스터에 대해 16단계를 반복합니다.
  18. 왼쪽 위에서 [Save]를 선택하고 [Activate]를 선택합니다.

Amazon EMR 클러스터에 연결된 Amazon Elastic Compute Cloud(Amazon EC2) 키 페어가 있는 경우 SSH를 사용하여 마스터 노드에 연결하고 yarn application –list를 실행하여 실행 중인 애플리케이션의 수를 확인할 수 있습니다.


페이지 내용이 도움이 되었습니까? | 아니요

AWS 지원 지식 센터로 돌아가기

도움이 필요하십니까? AWS 지원 센터를 방문하십시오.

게시 날짜: 2016년 10월 4일

업데이트 날짜: 2019년 2월 26일