게시된 날짜: Oct 1, 2021
이제 Amazon EMR 클러스터에서 실행되는 Apache Spark, Apache Hive 및 Presto와 같은 오픈 소스 프레임워크를 사용하여 Amazon SageMaker Studio 노트북에서 직접 페타바이트 규모의 데이터 분석 및 기계 학습을 실행할 수 있습니다. Amazon EMR은 오픈 소스 프레임워크를 자동으로 설치하고 구성하며, 표준 오픈 소스와 호환되고 표준 오픈 소스보다 빠른, 성능 최적화된 런타임을 제공합니다. 예를 들어 Amazon EMR 기반 Spark 3.0은 동등한 오픈 소스보다 1.7배 빠릅니다. Amazon SageMaker Studio는 데이터 준비와 모델 구축, 훈련 및 배포를 위해 필요한 모든 기계 학습 개발 단계를 수행할 수 있는 웹 기반의 단일 시각적 인터페이스를 제공합니다. 많은 양의 데이터를 분석, 변환 및 준비하는 것은 모든 데이터 과학 및 기계 학습 워크플로의 기본 단계입니다. 이번 출시로 Amazon EMR 클러스터에서 실행하는 Apache Spark, Apache Hive 및 Presto와 같은 인기 있는 프레임워크를 쉽게 사용하여 SageMaker Studio에서 직접 데이터 과학 및 기계 학습 워크플로를 간소화할 수 있습니다.
이번 출시로 이제 SageMaker Studio에서 직접 EMR 클러스터의 목록을 시각적으로 탐색하고 몇 번의 클릭만으로 EMR 클러스터에 연결할 수 있습니다. EMR 클러스터에 연결하면 Spark SQL, Scala, Python 및 HiveQL을 사용하여 데이터를 대화형으로 쿼리, 탐색, 시각화할 수 있고, Apache Spark, Hive 및 Presto 작업을 실행하여 데이터를 처리할 수 있습니다. EMR 성능 최적화된 버전의 Spark, Hive 및 Presto를 사용하므로 작업이 빠르게 실행됩니다. 또한 클러스터는 워크로드를 기반으로 자동으로 확장 또는 축소할 수 있으며 스팟 인스턴스 및 Graviton2 기반 프로세서와 통합하여 비용을 줄일 수 있습니다. 마지막으로, SageMaker Studio 사용자는 LDAP 기반 자격 증명 또는 Kerberos를 사용하여 Amazon EMR 클러스터에 연결할 때 인증할 수 있습니다.
이 기능들은 EMR 5.9.0 이상에서 지원되며, SageMaker Studio 이용 가능한 모든 AWS 리전에서 사용할 수 있습니다. 더 자세히 알아보려면 Amazon EMR 기반 Amazon SageMaker에서 대화형 데이터 처리하기 데모를 시청하고, Amazon SageMaker Studio 노트북에서 대화형 데이터 엔지니어링 및 데이터 과학 워크플로 수행하기 블로그나 여기에서 SageMaker Studio 설명서를 읽으십시오.