Amazon Web Services 한국 블로그

새로운 기능 – Amazon SageMaker Studio로 EMR 클러스터 및 Spark 작업 생성 및 관리

이제 Amazon SageMaker Studio 서비스에 세 가지 새로운 개선 사항을 제공하게 되어 매우 기쁩니다.

현재 SageMaker Studio의 사용자는 단일 AWS 계정 내에서 그리고 조직 전체의 공유 계정에서 실행되는 Amazon EMR 클러스터를 생성, 종료, 관리, 검색 및 연결할 수 있습니다. 이 모든 작업을 SageMaker Studio에서 직접 수행할 수 있습니다. 또한 SageMaker Studio Notebook 사용자는 SparkUI를 활용하여 Amazon EMR 클러스터에서 실행되는 Spark 작업을 SageMaker Studio Notebook에서 직접 모니터링하고 디버깅할 수 있습니다!

지금까지의 이야기…
오늘까지 SageMaker 스튜디오 사용자는 SageMaker 스튜디오와 동일한 계정에서 실행 중이라는 조건으로 EMR 클러스터를 찾고 연결할 수 있었습니다. 많은 상황에서 유용하지만 실행 중인 모델 또는 분석의 요구 사항에 적합한 클러스터가 없는 경우 데이터 사이언티스트는 개발 환경을 떠나 필요에 맞는 클러스터를 수동으로 구성해야 합니다. 데이터 사이언티스트의 워크플로를 방해할 뿐만 아니라, 데이터 사이언티스트가 작업을 계속할 수 있도록 클러스터를 프로비저닝하는 데 필요한 권한 또는 심도 있는 지식을 갖는다는 보장은 없습니다. 또한 여러 AWS 계정에서 작업하는 조직에서는 단일 계정에서 클러스터를 생성하고 관리하는 것이 제한될 수 있습니다.

새로운 소식
데이터 사이언티스트는 다음을 수행할 수 있습니다.

  • SageMaker Studio 내에서 Amazon EMR 클러스터를 검색, 관리, 생성, 종료 및 연결
  • 노련한 DevOps 실무자의 지원을 받아 워크로드 요구 사항에 맞게 클러스터를 구성하고 프로비저닝하는 새로운 방법인 ‘템플릿’ 활용
  • SageMaker Studio Notebook 내에서 Amazon EMR 클러스터에서 실행 중인 Spark 작업에 연결, 디버깅 및 모니터링

EMR 클러스터 생성, 연결 및 관리

SageMaker Studio Notebook에서 EMR 클러스터에 연결

SageMaker Studio 내에서 EMR 클러스터에 연결하고 관리할 수 있는 기능을 통해 데이터 사이언티스트는 더 이상 익숙한 환경을 벗어나 워크로드를 실행하는 EMR 클러스터를 생성, 구성 및 프로비저닝할 필요가 없습니다.

템플릿 소개
템플릿은 수많은 워크로드에 최적화된 상용 클러스터 구성의 모음입니다. 템플릿은 DevOps 관리자가 생성 및 관리할 수 있으며 AWS Service Catalog를 통해 SageMaker Studio 내의 데이터 사이언티스트에게 제공할 수 있습니다. 이를 통해 신뢰할 수 있는 DevOps 관리자가 프로젝트 요구 사항에 따라 클러스터를 올바르게 구성했다는 사실을 알고 안전하게 클러스터를 신속하게 가동할 수 있습니다. 또한 이를 통해 데이터 사이언티스트는 자신이 가장 잘하는 작업을 수행할 수 있으며 이러한 팀 내의 DevOps 관리자가 프로비저닝된 인프라 유형을 관리할 수 있는 더 큰 능력을 제공합니다.

SageMaker Studio Notebooks 내에서 EMR 클러스터 관리

Spark 작업에 직접 연결 및 모니터링
마지막으로, 데이터 사이언티스트들의 작업을 더욱 단순화하기 위해 SageMaker Studio Notebook 내에서 Amazon EMR 클러스터에서 실행되는 Spark 작업에 연결, 디버깅 및 모니터링할 수 있는 기능을 구축했습니다. 이전에는 Spark Job의 모니터링 UI에 액세스하기 위해 현재 실행 중인 작업에 직접 액세스할 수 있도록 보안 터널과 웹 프록시를 구성해야 했으며, 워크로드를 관찰하고 디버깅하려는 데이터 사이언티스트의 워크플로에 마찰을 더했습니다. 이제 이러한 새로운 기능을 통해 사용자는 이미 알고 있는 인터페이스에서 직접 클릭 한 번으로 액세스할 수 있습니다. 이를 통해 인프라 및 워크로드 구성에 시간을 낭비하지 않고 워크로드를 구축하고 업무에 투입할 수 있습니다.

SageMaker Studio Notebook 내에서 Spark 작업에 연결

이러한 새로운 기능을 통해 데이터 사이언티스트는 SageMaker Studio를 벗어나거나 이러한 하드웨어 프로비저닝의 미세함에 대해 자세히 알아볼 필요 없이 간단하고 일관된 UI를 사용하여 필요에 따라 인프라를 프로비저닝하고 관리할 수 있습니다. 또한 진행 중인 Spark 작업을 디버그하고 모니터링하기 위해 프록시와 SSH 터널을 구성하는 데 시간을 할애할 필요가 없습니다.

자세히 알아보기
이러한 기능은 일반적으로 SageMaker Studio를 사용할 수 있는 모든 AWS 리전에서 사용할 수 있으며, 이 기능을 사용하기 위한 추가 비용은 없습니다. 요금 및 지역별 가용성에 대한 자세한 내용은 SageMaker Studio 요금 페이지를 참조하세요.

자세한 내용은 설명서를 참조하세요.

-Sean