게시된 날짜: Nov 18, 2019
Apache Spark용 Amazon EMR 런타임을 발표하게 되어 기쁩니다. 이 런타임은 최적화된 성능의 Apache Spark용 런타임 환경으로, Amazon EMR 클러스터에서 사용 가능하며 기본적으로 설정됩니다. Spark용 EMR 런타임은 오픈 소스 Spark와 100% 호환되는 API를 갖춰 최대 32배 더 빠릅니다. 이 런타임은 EMR 릴리스 5.28부터 기본적으로 설정됩니다.
이러한 개선의 영향을 측정하기 위해 AWS는 Amazon S3의 데이터가 포함된 6노드 c4.8xlarge EMR 클러스터에서 3TB의 규모로 TPC-DS 벤치마크 쿼리를 사용했습니다. 성능 향상 정도를 측정하기 위해 총 쿼리 실행 시간과 전체 쿼리 대상 총 쿼리 실행 시간이 향상된 정도의 기하 평균을 측정했는데 그 결과 EMR 5.16과 EMR 5.28 사이에서 기하 평균 기준으로는 2.4배 향상되고, 총 쿼리 실행 시간 기준으로는 3.2배 향상되는 것으로 나타났습니다. 성능 향상과 단기 및 장기 실행 쿼리에 미치는 영향에 대한 자세한 내용은 AWS 빅 데이터 블로그 게시물인 Amazon EMR introduces EMR runtime for Apache Spark를 참조하십시오.