Spark Connect를 사용하여 Amazon EMR Serverless에서 대화형 워크로드 실행
Amazon EMR Serverless가 Spark Connect를 통한 대화형 세션을 지원합니다. 이제 Amazon SageMaker Unified Studio의 관리형 노트북은 물론 Jupyter, Visual Studio Code 등 즐겨 쓰는 노트북 환경과 IDE에서도 Apache Spark 애플리케이션을 개발하고 실행할 수 있습니다. 또한 EMR 콘솔에서 활성 세션과 완료된 세션을 모니터링, 디버깅하고 개별 세션의 세부적인 비용 정보와 사용량을 확인할 수도 있습니다.
대화형 세션은 셀과 스크립트 간에 원활하게 확장되는 영구적인 Spark 컨텍스트를 제공하므로 통합된 환경 내에서 로컬 Python 코드 실행과 원격 Spark 작업을 결합할 수 있습니다. Spark Connect의 클라이언트-서버 아키텍처가 애플리케이션 클라이언트를 Spark 드라이버에서 분리하기에 가능합니다. 따라서 선호하는 개발 환경과 도구를 유지하면서 Spark 인프라가 EMR Serverless에서 독립적으로 실행되도록 할 수 있습니다. 이 아키텍처는 임시 데이터 탐색, 반복적인 단계별 디버깅, 프로덕션 배포 전 점진적인 PySpark 작업 개발을 포함한 워크플로를 제공합니다. 관찰성을 위해 Spark UI를 통한 실시간 세션 모니터링, Spark History Server를 통한 기록 추적, EMR 콘솔 또는 API/CLI/SDK의 세션 관리를 이용할 수 있습니다.
Amazon EMR Serverless 기반 Spark Connect는 Amazon EMR Serverless가 제공되는 모든 AWS 리전에서 EMR 릴리스 7.13과 함께 사용할 수 있습니다. SageMaker Unified Studio 환경은 지원 리전에서 사용할 수 있습니다. 시작하려면 EMR Serverless 대화형 세션 사용 설명서 또는 Amazon SageMaker Unified Studio 시작 안내서를 참조하세요.