메인 콘텐츠로 건너뛰기

Amazon EMR

  • 개요
  • 요금

Amazon EMR Studio

EMR Studio를 선택해야 하는 이유

노트북을 사용해 작업을 제출할 수 있도록 EMR Studio가 통합 개발 환경(IDE)을 제공하므로 데이터 사이언티스트와 데이터 엔지니어는 R, Python, Scala 및 PySpark에서 작성한 데이터 엔지니어링 및 데이터 사이언스 애플리케이션을 쉽게 개발, 시각화 및 디버깅할 수 있습니다.

EMR Studio는 완전관리형 Jupyter 노트북과 Spark UI 및 YARN Timeline Service 같은 도구를 제공하여 디버깅을 간소화합니다. 데이터 사이언티스트와 분석가들은 사용자 지정 커널 및 라이브러리를 설치하고, GitHub 및 BitBucket과 같은 코드 리포지토리를 사용하여 동료와 협업하거나 Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 오케스트레이션 서비스를 사용하여 파라미터 노트북을 예약된 워크플로의 일부로 실행할 수 있습니다.

EMR Studio 커널 및 애플리케이션은 EMR 클러스터에서 실행되므로 성능을 최적화한 Apache Spark용 EMR 런타임을 사용하는 분산 데이터 처리의 이점을 누릴 수 있습니다. 관리자가 EMR Studio를 설정함으로써 분석가는 기존 EMR 클러스터에서 애플리케이션을 실행하거나 EMR용으로 사전 정의된 AWS Cloud Formation 템플릿을 사용하여 새 클러스터를 생성할 수 있습니다.

간편한 사용

EMR Studio를 사용하면 EMR 클러스터에서 애플리케이션과 간편하게 상호 작용할 수 있습니다. EMR Studio에는 AWS Console에서 AWS IAM 인증을 사용하여 액세스하거나 사용하는 ID 제공업체(IdP)에서 AWS IAM Identity Center(AWS SSO의 후속 서비스)를 통해 페더레이션 액세스를 사용하도록 설정하여 AWS Console에 로그인하지 않고 액세스할 수 있습니다. EMR 클러스터에 로그인하지 않고도 노트북을 사용하여 대화식으로 데이터를 탐색, 처리 및 시각화하고 파이프라인을 구축 및 예약하고 애플리케이션을 디버깅할 수 있습니다.
Screenshot of the AWS EMR Studio dashboard highlighting the use of fully-managed Jupyter Notebooks, notebook attachment to clusters for running jobs, and tools for quick diagnosis and debugging. The interface allows creation of workspaces and searching clusters, useful for analytics and data engineering workflows.

완전관리형 Jupyter 노트북

EMR Studio를 사용하면 몇 초 만에 노트북을 시작하고 샘플 노트북에 온보딩하고 데이터 탐색을 수행할 수 있습니다. 내장된 실시간 협업을 통해 동료와 협업하고 Git 리포지토리를 통해 노트북 버전 전반에 걸쳐 변경 사항을 추적할 수 있습니다. 또한, 노트북에서 사용자 지정 커널 및 Python 라이브러리를 로드해 환경을 사용자 지정할 수 있습니다.
Screenshot of an EMR Notebooks demo in AWS EMR Studio. The displayed Jupyter notebook explains how to install notebook-scoped Python libraries on a running cluster, visualize Spark dataframes, and describes the benefits of notebook-scoped libraries such as runtime installation, dependency isolation, and portability.

손쉬운 애플리케이션 구축

EMR Studio를 사용하면 프로토타입 제작에서 프로덕션으로 손쉽게 이동할 수 있습니다. 코드 리포지토리에서 파이프라인을 트리거하거나 Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 오케스트레이션 도구를 사용하여 파이프라인으로 노트북을 실행하거나 클릭 한 번으로 더 큰 클러스터에 노트북을 연결할 수 있습니다.
Screenshot of the Apache Airflow interface in AWS EMR Studio showing the DAG (Directed Acyclic Graph) tree view for a custom cluster execution sensor DAG, with workflow steps and task status indicators.

간소화된 디버깅

EMR Studio를 사용하면 활성 및 종료된 클러스터 모두에 대해 클러스터에 로그인하지 않고도 작업을 디버깅하고 로그에 액세스할 수 있습니다. Spark UI 및 YARN 타임라인 서비스와 같은 네이티브 애플리케이션 인터페이스를 EMR Studio에서 직접 사용할 수 있습니다. 또한 EMR Studio를 사용하면 클러스터 상태, 생성 시간 및 클러스터 ID와 같은 필터를 사용하여 디버깅할 클러스터 또는 작업을 빠르게 찾을 수 있습니다.
Screenshot of the AWS EMR Studio interface showing EC2 cluster management and debugging features within a Jupyter notebook environment. The interface lists various EMR clusters, their IDs, states, elapsed times, and launching options for application UIs such as Spark History Server, YARN Timeline Server, and Tez UI.

실시간 협업 노트북

EMR Studio를 사용하면 데이터 사이언티스트, 엔지니어 및 분석가가 실시간으로 팀 간에 협업할 수 있습니다. 동료를 초대하여 노트북을 보고 편집할 수 있습니다. 이를 통해 Jupyter 노트북의 실시간 공동 작성, 코드 디버깅 및 코드 검토가 가능합니다.

SQL Explorer

EMR Studio는 데이터 카탈로그를 탐색하고 EMR Studio에서 직접 EMR 클러스터에 대한 SQL 쿼리를 실행할 수 있는 WorkSpace의 기능인 SQL Explorer와 함께 제공됩니다. SQL Explorer에서는 Presto를 EC2 클러스터의 Amazon EMR에 연결하여 데이터 카탈로그를 표시하고 찾아볼 수 있습니다. 또한 SQL Explorer는 SQL 쿼리를 실행하고, 테이블에서 조회 결과를 보고, 조회 결과를 csv 형식으로 다운로드할 수 있는 편집기를 제공합니다.

다중 언어 노트북

EMR Studio를 통해 단일 Jupyter 노트북 내에서 다중 언어를 사용할 수 있습니다. 동일한 Jupyter 노트북 내에서 Python, Scala, SparkSQL 및 R 사이를 전환하고 임시 테이블을 통해 셀 사이에서 데이터를 공유할 수 있습니다. 이 기능을 사용하면 워크플로의 다양한 구성 요소에 가장 적합한 언어로 코드를 작성할 수 있습니다.
Screenshot of Amazon EMR Studio showing a multi-language Jupyter Notebook interface with cells using SparkR, SQL, PySpark, and ScalaSpark code, displayed on a gradient background.

사용 사례

    EMR Studio를 사용하면 몇 초 만에 노트북을 시작하고 샘플 노트북에 온보딩하고 데이터 탐색을 수행할 수 있습니다. 내장된 실시간 협업을 통해 동료와 협업하고 Git 리포지토리를 통해 노트북 버전 전반에 걸쳐 변경 사항을 추적할 수 있습니다. 또한, 노트북에서 사용자 지정 커널 및 Python 라이브러리를 로드해 환경을 사용자 지정할 수 있습니다.

    EMR Studio에서는 코드 리포지토리를 사용하여 파이프라인을 트리거할 수 있습니다. 또한 노트북을 파라미터화하고 연결하여 파이프라인을 구축할 수 있습니다. Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 워크플로 오케스트레이션 서비스를 사용하여 예약된 워크플로에 노트북을 통합할 수 있습니다. 또한 EMR Studio를 사용하면 작업을 실행하기 위해 더 큰 클러스터에 노트북을 다시 연결할 수 있습니다.

    EMR Studio에서는 노트북 UI에서 노트북 애플리케이션을 디버깅할 수 있습니다. 먼저 클러스터 상태와 같은 필터를 사용하여 클러스터의 범위를 좁혀 파이프라인을 디버깅할 수도 있으며, 클릭 몇 번만으로 활성 및 종료된 클러스터 모두에서 작업을 진단하여 Spark UI, Tez UI 및 Yarn Timeline Service와 같은 네이티브 디버깅 UI를 열 수 있습니다.