Amazon SageMaker Studio에서 직접 Amazon EMR Serverless 기반 Apache Spark 사용
이제 Amazon SageMaker Studio 노트북에서 직접 Amazon EMR Serverless 상에 페타바이트 규모의 데이터 분석 및 기계 학습을 실행할 수 있습니다. EMR Serverless는 필요한 리소스를 자동으로 프로비저닝하고 확장하므로 사용자는 클러스터를 구성, 최적화, 튜닝 또는 관리할 필요 없이 데이터와 모델에만 집중할 수 있습니다. EMR Serverless는 오픈 소스 프레임워크를 자동으로 설치하고 구성하며, 표준 오픈 소스와 호환되고 표준 오픈 소스보다 빠른, 성능 최적화된 런타임을 제공합니다.
이번 릴리스로 이제 몇 번의 클릭마으로 SageMaker Studio에서 바로 EMR Serverless 애플리케이션을 시각적으로 생성 및 탐색하고 연결할 수 있습니다. EMR Serverless 애플리케이션에 연결되면 Spark SQL, Scala, Python을 사용하여 대화형으로 데이터를 쿼리, 탐색 및 시각화하고, Apache Spark 작업을 실행하여 Studio 노트북에서 바로 데이터를 처리할 수 있습니다. EMR 성능 최적화된 버전의 Spark를 사용하므로 작업이 빠르게 실행됩니다. 예를 들어 Spark on EMR 7.1은 동급 오픈 소스보다 4.5배 더 빠릅니다. EMR Serverless는 애플리케이션의 요구 사항에 맞게 컴퓨팅 및 메모리 리소스를 프로비저닝하고 신속하게 확장하는 세분화된 오토 스케일링 기능을 제공하며, 사용자는 사용한 만큼만 비용을 지불하면 됩니다.
이러한 기능은 SageMaker 배포 1.10 이상에서 지원되며, SageMaker Studio가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 자세한 내용은 Use LangChain with PySpark for Processing documents at massive scale with Amazon SageMaker Studio and EMR Serverless 블로그를 살펴보거나 여기에서 SageMaker Studio 설명서를 참조하세요.