Amazon EMR 클러스터에서 부트스트랩 작업을 사용할지 또는 단계를 사용할지 어떻게 결정합니까?

최종 업데이트 날짜: 2020년 5월 11일

Amazon EMR 클러스터에서 부트스트랩 작업을 실행하거나 단계를 실행하는 사용 사례는 무엇입니까?

간략한 설명

부트스트랩 작업은 EMR 클러스터에 추가 소프트웨어를 설치하는 데 사용합니다. 단계는 EMR 클러스터에 작업을 제출하거나 데이터를 처리하는 데 사용합니다.

해결 방법

부트스트랩 작업

  • 부트스트랩 작업은 EMR 클러스터가 STARTING 상태에서 BOOTSTRAPPING 상태로 전환된 후 실행하는 작업입니다. 부트스트랩 작업은 Hadoop 또는 Spark와 같은 핵심 서비스가 설치되기 전에 실행됩니다. 부트스트랩 작업이 실패하면 클러스터가 시작되지 않습니다. 자세한 내용은 클러스터 수명 주기 이해를 참조하십시오.
  • 부트스트랩 작업은 모든 클러스터 노드에서 실행됩니다. 부트스트랩 작업은 기본적으로 Hadoop 사용자로 실행되는 스크립트이지만, sudo 명령을 사용하여 루트 사용자로 실행할 수도 있습니다. instance.json 또는 job-flow.json 파일의 인스턴스별 값에 따라 조건부로 명령을 실행하도록 부트스트랩 작업을 구성할 수 있습니다.

참고: Amazon EMR 2.x 및 3.x 릴리스에서는 핵심 서비스가 설치된 후 부트스트랩 작업이 실행됩니다. Amazon EMR AMI 버전 2.x 및 3.x에 대한 사전 정의 부트스트랩 작업은 최신 Amazon EMR 릴리스에서 지원되지 않습니다. 자세한 내용은 부트스트랩 작업을 생성하여 추가 소프트웨어 설치를 참조하십시오.

단계

  • 단계는 하나 이상의 Hadoop 작업을 포함하는 작업 단위입니다. 단계는 일반적으로 데이터를 전송하거나 처리하는 데 사용됩니다. 한 단계로 작업을 클러스터에 제출할 수 있습니다. 다른 단계에서는 제출된 데이터를 처리한 다음 처리된 데이터를 특정 위치로 전송할 수 있습니다.
  • 단계는 부트스트랩 작업 후에 시작되고 마스터 노드에서만 실행됩니다. 자세한 내용은 단계를 실행하여 데이터 처리를 참조하십시오.
  • Amazon EMR 릴리스 버전 5.28.0 이상에서는 여러 단계를 병렬로 실행할수 있습니다. 이전 Amazon EMR 릴리스 버전에서는 단계가 순차적으로 작업을 완료합니다.
  • 단계를 구성할 때 단계가 실패한 후 수행할 작업을 선택할 수 있습니다.

단계에 대한 자세한 내용은 AWS CLI 및 콘솔을 사용한 단계 작업을 참조하십시오.


이 문서가 도움이 되었습니까?

AWS에서 개선해야 할 부분이 있습니까?


도움이 필요하십니까?