게시된 날짜: May 1, 2024
Amazon EMR Serverless는 Amazon EMR의 서버리스 옵션으로 데이터 엔지니어 및 데이터 과학자가 클러스터나 서버를 구성, 관리 및 확장할 필요 없이 오픈 소스 빅 데이터 분석 프레임워크를 실행할 수 있도록 합니다. EMR Serverless 애플리케이션은 작업자를 사용해 워크로드를 실행하므로 사용자는 워크로드의 요구 사항에 따라 작업자별로 임시 스토리지를 구성할 수 있습니다. 오늘 Amazon EMR Serverless에서 셔플 최적화 디스크를 발표했습니다. 이 디스크는 향상된 스토리지 용량(최대 2TB)과 높은 IOPS를 제공하여 I/O 집약적인 Spark 및 Hive 워크로드의 성능을 개선합니다.
셔플은 Apache Spark 또는 Apache Hive 작업의 기본 단계로, 조인, 집계 또는 변환과 같은 작업 중에 병렬 계산을 위해 데이터를 재분배하거나 재구성하는 I/O 집약적 작업을 포함합니다. 셔플할 대규모 데이터세트가 있는 복잡한 워크로드에는 최적화된 셔플 처리를 위한 충분한 디스크 용량과 I/O 성능이 필요합니다. 셔플 최적화 디스크는 최대 2TB의 스토리지 용량과 더 높은 기준 IOPS를 제공하므로 셔플이 많고 I/O 집약적인 Spark 및 Hive 워크로드를 효율적으로 실행할 수 있습니다.
셔플 최적화 디스크는 AWS GovCloud(미국) 및 중국 리전을 제외하고 EMR Serverless가 제공되는 모든 AWS 리전의 EMR 릴리스 버전 7.1.0에서 정식 버전으로 사용할 수 있습니다. 셔플 최적화 디스크에 대한 자세한 내용은 EMR Serverless 사용 설명서에서 확인하세요. 셔플 최적화 디스크의 요금 정보는 EMR Serverless 요금 페이지를 참조하세요.