부트스트랩 작업을 실행하거나 Amazon EMR 클러스터에서 단계를 실행하는 사용 사례에는 어떤 것이 있습니까?

부트스트랩 작업Amazon EMR 단계 둘 다 Amazon EMR 클러스터에서 작업을 완료하는 데 사용됩니다. 이 작업과 단계가 클러스터 수명 중에 실행되는 때와 위치, 수행하는 작업의 유형에 따라 둘의 차이가 결정됩니다.

Bootstrap actions

클러스터 수명 주기 이해에서 설명한 대로 부트스트랩 작업은 Amazon EMR 클러스터가 STARTING 상태에서 BOOTSTRAPPING 상태로 전환한 후 첫 번째로 실행되는 항목입니다. 모든 클러스터 노드에서 실행되는 부트스트랩 작업은 기본적으로 하둡 사용자로 실행되는 스크립트지만 sudo 명령을 사용하여 루트 사용자로 실행될 수도 있습니다. 콘솔, AWS 명령줄 인터페이스(AWS CLI) 또는 API에서 여러 bootstrap-action 파라미터를 제공하여 클러스터마다 부트스트랩 작업을 16개까지 지정할 수 있습니다.

부트스트랩 작업을 사용하여 클러스터에 추가 소프트웨어를 설치할 수 있으며, instance.json 또는 job-flow.json 파일의 인스턴스 관련 값에 따라 조건부로 명령을 실행하도록 부트스트랩 작업을 구성할 수 있습니다. 하둡이나 Spark 같은 핵심 서비스를 설치하기 전에 부트스트랩 작업이 실행되므로 부트스트랩 작업이 실패하면 클러스터가 시작되지 않습니다.

참고: AMI 버전 2.x 및 3.x의 Amazon EMR에서는 하둡이나 Spark 같은 핵심 서비스가 설치된 후에 부트스트랩 작업이 실행됩니다. Amazon EMR 릴리스 4.x에서는 미리 정의된 Amazon EMR AMI 버전 2.x 및 3.x용 부트스트랩 작업 중 대다수가 지원되지 않습니다. 자세한 내용은 부트스트랩 작업을 생성하여 추가 소프트웨어 설치를 참조하십시오.

단계

단계는 Amazon EMR 클러스터의 마스터 노드에서만 실행되는 하나 이상의 하둡 작업으로 이루어진 별개의 작업 단위입니다. 부트스트랩 작업이 실패하면 클러스터가 시작되지 않으므로 단계는 항상 부트스트랩 작업 후에 시작되어야 합니다. 단계는 대개 데이터를 전송하거나 처리하기 위해 사용됩니다. 한 단계가 클러스터에 작업을 제출하고 다른 단계들이 제출된 데이터를 처리한 후 처리된 데이터를 특정 위치로 보냅니다. 단계를 실행하여 데이터 처리의 다이어그램에 나온 대로 단계는 순차적으로 작업을 완료합니다. 단계를 구성할 때는 단계가 실패한 후 어떤 일이 생기는지 선택할 수 있어 어느 정도 내결함성이 있습니다. 단계 생성에 대한 자세한 내용은 AWS CLI 및 콘솔을 사용하여 단계 작업을 참조하십시오.


페이지 내용이 도움이 되었습니까? | 아니요

AWS 지원 지식 센터로 돌아가기

도움이 필요하십니까? AWS 지원 센터를 방문하십시오.

게시된 날짜: 2016년 10월 28일

업데이트됨: 2018-09-07