게시된 날짜: Sep 19, 2022
EKS 기반 Amazon EMR 릴리스 6.7.0 이상에는 StartJobRun API를 통한 Apache Spark SQL 스크립트를 실행하는 기능이 포함되어 있음을 알려드립니다. Spark SQL은 구조화된 데이터 처리를 위한 Spark 모듈입니다. Spark DataFrame API와는 달리 Spark SQL 인터페이스는 수행되는 데이터 및 계산 구조에 대해 더 많은 정보를 지닌 Spark를 제공합니다. 내부적으로 Spark SQL은 이러한 추가 정보를 사용하여 추가 최적화를 수행합니다. 이번 출시를 통해 사용자는 EKS 기반 Amazon EMR의 StartJobRun API를 통해 Spark SQL 쿼리 및 ETL 기반 Spark SQL 파이프라인을 직접 실행할 수 있습니다.
EKS 기반 Amazon EMR 사용자는 Spark 작업을 시작하기 위해 StartJobRun API에 의존합니다. 이전에는 Spark SQL 스크립트를 실행하기 위해 사용자가 PySpark 같은 인터페이스의 SQL 스크립트를 포함해야 했는데, 이 과정에서 기존 Spark SQL 스크립트를 사용자가 수정해야 했습니다. 이번 출시에서 새로운 Spark SQL 작업 드라이버는 사용자가 Spark 작업 실행 시 사용하는 EKS 기반 Amazon EMR의 기본 이미지에 추가됩니다. 사용자는 이제 EKS 기반 Amazon EMR에서 StartJobRun API를 직접 사용하여 기존 Spark SQL 스크립트에 수정 없이 Spark SQL 쿼리를 실행하는 SQL 진입점 파일을 공급할 수 있습니다. 이 기능은 EKS 기반 Amazon EMR을 지원하는 모든 리전에서 사용할 수 있습니다.
EKS 기반 Amazon EMR에서 Spark SQL 스크립트를 실행하는 방법에 대해 자세히 알아보려면 설명서 페이지를 참조하세요.