게시된 날짜: Aug 27, 2019

Spark 사용자는 EMR 릴리스 5.26.0에서 구성 또는 코드를 변경할 필요 없이 EMR 릴리스 5.24.0 및 5.25.0에 도입된 모든 새로운 Spark 성능 최적화의 이점을 활용할 수 있습니다. 5.26.0 릴리스에서는 기본적으로 다음과 같은 최적화가 사용됩니다.

  • Dynamic Partition Pruning - Spark 엔진이 런타임 시 관련 파티션을 유추할 수 있도록 하여 스토리지에서 읽어야 하는 데이터 양과 처리해야 하는 레코드 수를 줄임으로써 시간 및 컴퓨팅 리소스를 절약할 수 있습니다.
  • DISTINCT before INTERSECT - 교차를 계산하기 전에 각 입력 컬렉션에서 중복 값을 제거하여 호스트 간에 이동하는 데이터의 양을 줄임으로써 성능을 향상시킵니다.
  • Flattening Scalar Subqueries - 특정 테이블의 행에 여러 다른 조건을 적용해야 하는 상황에서 각 조건에 대해 테이블을 여러 번 읽을 수 없도록 합니다.
  • Optimized Join Reorder - 조인을 재정렬하여 필터를 통해 먼저 작은 조인을 실행하므로 이후 더 큰 조인에 필요한 처리가 줄어듭니다.
  • Bloom Filter Join - 테이블 조인을 동적으로 필터링하여 관련 행만 포함하도록 함으로써 Spark에서 처리하는 데이터 양을 줄이고 쿼리 런타임 성능을 향상시킵니다.

이러한 최적화에 대한 자세한 내용은 Spark 성능 최적화 설명서 및 EMR 5.26.0 릴리스 정보를 참조하십시오.

또한 AWS Lake Formation과 새로운 버전의 Apache HBase 1.4.10의 베타 통합 버전인 EMR 5.26.0과 Apache Phoenix 4.14.2에도 포함되어 있습니다. 통합에 대한 자세한 내용은 Amazon EMR과 AWS Lake Formation(Beta) 통합을 참조하십시오.

이제 모든 Amazon EMR 지원 리전에서 Amazon EMR 릴리스 5.26.0을 사용할 수 있습니다.

AWS Lake Formation과 Amazon EMR 간의 통합은 베타 버전이며 미국 동부(버지니아 북부) 및 미국 서부(오레곤) 리전에서 사용할 수 있습니다.

EMR 출시 정보 피드를 구독하면 최신 EMR 릴리스 소식을 받을 수 있습니다. EMR 릴리스 안내서의 상단에 있는 아이콘을 사용하여 피드 URL을 즐겨 찾는 피드 리더에 직접 연결하십시오.