Amazon Web Services 한국 블로그
Amazon EMR 5.0.0 – 주요 버전 업데이트, 사용자 UI 개선, 디버깅 향상 등
Amazon EMR 팀은 올해 새로운 버전을 무서운 기세로 출시하고 있습니다. 올해 출시를 되돌아 봅시다.
- EMR 4.7.0 – Apache Tez, Apache Phoenix, Presto, HBase, Mahout (6월)
- EMR 4.6.0 – 대량 데이터에 대한 실시간 접근를 위해 HBase 추가 (4월)
- EMR 4.5.0 – Hadoop, Presto, Spark와 EMRFS 추가 (4월)
- EMR 4.4.0 – Sqoop, HCatalog, Java 8 등 (3월)
- EMR 4.3.0 – Spark, Presto, Ganglia (1월)
오늘은 EMR 5.0.0이 발표되었습니다. 이제 EMR은 16개의 오픈 소스 Hadoop 에코 시스템 프로젝트를 지원하고 있습니다. Spark와 Hive의 주요 버전 업그레이드, Tez를 Hive와 Pig 기본으로 사용, Hue와 Zeppelin의 UI 개선 및 디버깅 기능 개선이 포함되어 있습니다.
아래 도표는 최근 출시를 통해 EMR이 어떻게 진화해 왔는지 살펴 볼 수 있습니다.
이제 EMR 5.0.0의 새로운 기능을 확인해 보겠습니다!
16가지 오픈 소스 Hadoop 에코 시스템 프로젝트 지원
Amazon EMR 4.0.0에서 EMR 빌드 및 패키징 프로세스를 관리하기 위해 Apache Bigtop를 사용하기 시작했습니다. 최근에 주요 오픈 소스 버전을 가능한 한 빠르게 탑재할 수 있도록 한다는 목표를 위해 Hadoop 생태계에서 새 패키지를 추가하면서도, 출시 주기를 단축 할 수 있었던 것은 Bigtop 사용 덕분입니다.
이러한 목표하에 EMR 5.0은 총 16가지 Hadoop 에코 시스템 프로젝트를 지원하고 있으며, 그 중에는 Apache Hadoop, Apache Spark, Presto, Apache Hive, Apache HBase, Apache Tez 등을 포함합니다. EMR 클러스터를 만들 때 필요한 응용 프로그램을 직접 선택할 수 있습니다.
Spark와 Hive의 주요 버전 업그레이드
이번 EMR 버전에서는 Hive(Tez 및 Hadoop MapReduce의 SQL 기반 인터페이스)가 1.0에서 2.1로 업데이트 되고, 동시에 Java 8로 이전했습니다. 또한, Spark(대량 인메모리 데이터 처리 엔진)도 1.6.2에서 2.0로 업데이트되고, 동시에 Scala 2.11로 전환했습니다. Spark와 Hive 주요 버전 업데이트를 통해 새로운 기능, 성능 개선, 그리고 버그 수정을 포함하고 있습니다. 예를 들어, Spark는 Structured Streaming API 추가, SQL 지원 개선 등이 포함되어 있습니다. 그러나, Spark와 Hive 신규 버전은 100% 하위 호환성을 가지고 있지 않습니다. 따라서, 여러분 코드가 잘 동작하는지 확인 하신 후, EMR 5.0.0로 업데이트 해 주시기 바랍니다.
이번 릴리스에서 Hive 2.1 Pig 0.16에서는 Hadoop MapReduce 대신 Tez이 기본 엔진이 성능이 개선 된 쿼리의 대기 시간을 줄일 수 있습니다. 이 업데이트는 MapReduce는 Hadoop MapReduce 작업을 직접 수행 된 경우에만 사용되게되었습니다. (Hive와 Pig는 Tez를 사용하고, Spark는 자체 프레임 워크를 가지고 있습니다.)
사용자 인터페이스 개선
또한, EMR 5.0.0에서는 Apache Zeppelin(대화형 데이터 분석 도구)을 0.5.6에서 0.6.1로 업데이트, Hue(Hadoop 데이터를 분석하기 위한 인터페이스)를 3.7.1에서 3.10로 업데이트 했습니다. 이러한 웹 기반 도구의 새 버전에서는 새로운 기능과 다수 마이너 개선 사항이 포함되어 있습니다.
Zeppelin은 Spark와 자주 사용되며, Hue는 Hive, Pig, HBase와 함께 사용됩니다. 새로운 버전의 Hue는 여러 쿼리를 하나의 동일한 페이지에서 수행 할 수 있게되었습니다.
Hue는 Oozie워크 플로우 디자인을 할 수도 있습니다.
디버깅 기능 개선
마지막으로, EMR 5.0.0 디버깅 기능 개선 기능도 포함되어 있습니다. 특정 EMR 작업 단계가 왜 실패했는지를 쉽게 확인할 수 있습니다. 콘솔에는 스택 트레이스 일부와 로그 파일 (Amazon S3에 저장)에 대한 링크가 표시되어, 쉽게 문제를 확인하고 해결하고 오류를 수정할 수 있습니다.
지금 시작하기
EMR 5.0.0 오늘부터 모든 AWS 리전에서 시작할 수 있습니다! EMR Console을 열고 Create cluster를 클릭 한 후, Release 메뉴에서 emr-5.0.0을 선택하면됩니다.
더 자세히 보기
새로운 EMR의 출시를 더 자세하게 알고 싶은 경우에는 8월 23일 온라인 세미나 Introducing Amazon EMR Release 5.0: Faster, Easier, Hadoop, Spark, and Presto에도 참여하시기 바랍니다.
— Jeff;
이 글은 Amazon EMR 5.0.0 – Major App Updates, UI Improvements, Better Debugging, and More의 한국어 번역입니다.