게시된 날짜: Dec 1, 2021
Amazon SageMaker Studio는 기계 학습(ML)을 위한 최초의 완전 통합 개발 환경(IDE)입니다. 데이터를 준비하고 모델을 구축, 교육 및 배포하는 데 필요한 모든 기계 학습 개발 단계를 수행할 수 있는 단일 웹 기반 시각적 인터페이스를 제공합니다. 당사는 SageMaker Studio 노트북에서 바로 Amazon EMR 클러스터를 시각적으로 탐색하고 연결할 수 있는 기능을 최근에 도입했습니다. 오늘부터 클릭 한 번으로 SageMaker Studio 노트북에서 바로 EMR에서 실행되는 Apache Spark 작업을 모니터링하고 디버깅할 수 있습니다. 또한 이제 SageMaker Studio에서 직접 EMR 클러스터를 검색, 연결, 생성, 종료 및 관리할 수 있습니다. 따라서 내장된 EMR과의 통합을 통해 단일 범용 SageMaker Studio 노트북 내에서 페타바이트 규모의 대화형 데이터 준비 및 기계 학습을 수행할 수 있습니다.
많은 양의 데이터를 분석, 변환 및 준비하는 것은 모든 데이터 과학 및 기계 학습 워크플로의 기본 단계입니다. 데이터 사이언티스트, 데이터 엔지니어와 같은 데이터 작업자는 신속한 데이터 준비를 위해 EMR에서 실행되는 Apache Spark, Hive, Presto를 활용합니다. 지금까지 이러한 데이터 작업자는 같은 계정의 Studio 노트북에서 EMR 클러스터에 쉽게 연결할 수 있었습니다. 그러나 여러 계정에 연결하거나 EMR에서 실행되는 Apache Spark 작업을 모니터링 및 디버그하려면 복잡한 보안 규칙과 웹 프록시를 설정해야 했습니다. 더구나 데이터 작업자가 특정 워크로드에 맞춘 EMR 클러스터를 생성해야 할 때는 관리자에게 EMR 클러스터 생성을 요청하거나 다른 도구로 네트워크, 컴퓨팅 및 클러스터 구성의 세부적인 기술 지식을 활용하여 직접 클러스터를 생성해야 했습니다. 이 프로세스는 워크플로에 도전적이고 방해가 될 뿐만 아니라 데이터 준비 작업에 집중하는 데 방해가 되었습니다. 결과적으로 비록 경제적이지는 않아도 다수의 고객은 활성 사용량에 관계없이 수신 워크로드를 예상하여 클러스터를 지속적으로 유지했습니다.
오늘부터 데이터 작업자는 SageMaker Studio에서 직접 단일 계정 및 교차 계정 구성의 EMR 클러스터를 쉽게 검색하고 연결할 수 있습니다. 또한 데이터 작업자는 이제 Apache Spark UI에 대한 클릭 한 번으로 액세스하여 SageMaker Studio Notebooks에서 바로 EMR에서 실행되는 Apache Spark 작업을 모니터링 및 디버그할 수 있으므로 디버깅 워크플로가 크게 간소화됩니다. 고객은 AWS Service Catalog를 사용하여 사전 구성된 템플릿을 정의하고 선택한 데이터 작업자에게 배포하여 SageMaker Studio에서 바로 EMR 클러스터를 생성할 수 있습니다. 데이터 작업자가 이러한 템플릿을 사용할 때 고객은 조직, 보안, 컴퓨팅 및 네트워킹 가드 레일을 완전히 제어할 수 있습니다. 데이터 작업자는 SageMaker Studio에서 몇 번의 클릭만으로 사용할 수 있는 템플릿 세트를 통해 시각적으로 탐색하고, 특정 워크로드에 맞추어 사용자 정의하며, 온디맨드 EMR 클러스터를 생성 및 종료할 수 있습니다. 고객은 이러한 기능을 사용하여 데이터 준비 워크플로를 단순화하고 SageMaker Studio의 대화형 워크로드에 EMR 클러스터를 보다 최적으로 사용할 수 있습니다.
이러한 기능은 일반적으로 미국 동부(버지니아 북부 및 오하이오), 미국 서부(캘리포니아 북부 및 오레곤), 캐나다(중부), EU(프랑크푸르트), EU(아일랜드), 유럽(스톡홀름), EU(파리), EU(런던), 아시아 태평양(뭄바이), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 남미(상파울루)의 AWS 리전에서 사용할 수 있으며, 이 기능을 사용하는 데 추가 요금이 부과되지 않습니다. 자세한 내용은 이 블로그 게시물 및 SageMaker Studio Notebooks 사용 설명서를 참조하세요.