게시된 날짜: Sep 6, 2019
EMR 6.0.0(베타)을 통해 사용자는 Spark 2.4.3 및 Hadoop 3.1.0을 사용하여 Docker Hub 및 Amazon ECR(Elastic Container Registry)에 있는 Docker 이미지로 애플리케이션 및 라이브러리 종속성을 정의할 수 있습니다.
현재 PySpark 및 SparkR 사용자는 클러스터의 각 호스트에 종속성을 설치해야 합니다. 결과적으로 다중 테넌트 클러스터를 운영하는 팀의 경우 특정 라이브러리 버전을 유지하고 종속성을 관리하는 데 어려움을 겪어 개발자 생산성이 제한되고 클러스터 사용 준비에 소모하는 시간이 증가하고 클러스터 업그레이드에 복잡성이 가중됩니다.
Hadoop 3, Docker 및 EMR을 사용할 경우 Spark 사용자는 더 이상 개별 클러스터 호스트에 라이브러리 종속성을 설치할 필요가 없고, 애플리케이션 종속성이 개별 Spark 애플리케이션으로 범위가 지정될 수 있습니다. 이는 EMR 클러스터 호스트에서 직접 실행하는 대신 Docker 컨테이너에서 Spark 애플리케이션을 실행함으로써 가능합니다. Spark 애플리케이션에서 Docker를 사용하려면 작업을 EMR 클러스터로 제출할 때 Docker 이미지의 이름을 참조하기만 하면 됩니다. EMR 클러스터에서 실행되는 YARN이 자동으로 Docker Hub 또는 ECR에서 이미지를 가져온 다음 애플리케이션을 실행합니다. 사용자는 Docker 이미지를 사용하여 라이브러리 종속성을 패키징할 수 있고, 동일한 클러스터에서 각기 다른 버전의 R 및 Python으로 컨테이너를 실행할 수도 있습니다.
또한 EMR 릴리스 6.0.0(베타)에는 Amazon Linux 2에 대한 지원과 Amazon Corretto JDK 8이 포함되어 있습니다. Amazon Linux 2는 Amazon Linux 서버 운영 체제의 최신 버전으로, systemd init 시스템과 같은 새로운 시스템 도구 및 Amazon Linux LTS 커널에 맞춰진 성능을 제공합니다. Amazon Corretto JDK 8은 Java SE 인증 호환 JDK를 제공합니다. 여기에는 장기 지원, 성능 개선 및 보안 수정 사항이 포함되어 있습니다.
이 EMR 릴리스 6.0.0(베타)은 현재 미국 동부(버지니아 북부) 및 미국 서부(오레곤) 지역에서 사용할 수 있습니다. 시작하려면 Amazon EMR 6.0.0(베타)을 사용하여 Docker에서 Spark 애플리케이션 실행을 참조하십시오. 이 릴리스에 대한 피드백을 제공하거나 질문을 하려면 Amazon EMR 포럼을 이용하십시오.
EMR 출시 정보 피드를 구독하면 최신 EMR 릴리스 소식을 받을 수 있습니다. EMR 릴리스 안내서의 상단에 있는 아이콘을 사용하여 즐겨 찾는 피드 리더에 피드 URL을 직접 연결하십시오.