메인 콘텐츠로 건너뛰기

Amazon EMR

  • 개요
  • 요금

Amazon EMR Serverless

클러스터 및 서버 관리 없이 오픈 소스 프레임워크를 사용하여 빅 데이터 애플리케이션 실행

EMR Serverless를 사용해야 하는 이유

Amazon EMR Serverless는 Amazon EMR의 서버리스 옵션으로, 데이터 분석가와 엔지니어가 클러스터나 서버를 구성 및 관리하고 규모를 조정하지 않고도 오픈 소스 빅 데이터 분석 프레임워크를 손쉽게 실행할 수 있도록 합니다. 전문가가 클러스터를 계획하고 관리할 필요 없이 Amazon EMR의 모든 기능과 이점을 활용할 수 있습니다.

장점

Apache Spark, Apache Hive 등 애플리케이션을 실행할 오픈 소스 프레임워크를 선택하면 EMR Serverless가 자동으로 기본 컴퓨팅 및 메모리 리소스를 프로비저닝하고 관리합니다.

변화하는 데이터 볼륨과 처리 요구 사항을 충족하도록 몇 초 만에 리소스 크기를 조정하는 자동 온디맨드 규모 조정을 통해 규모와 관계없이 분석 워크로드를 실행할 수 있습니다.

EMR Serverless는 리소스를 자동으로 스케일 업하고 다운하여 애플리케이션에 적절한 용량을 제공합니다. 사용한 만큼만 비용을 지불하므로 과다 또는 과소 프로비저닝에 대한 우려를 최소화할 수 있습니다.

Apache Spark 업그레이드 에이전트를 활용하면, 수개월이 걸리던 Apache Spark 업그레이드 작업을 지능형 자동화를 통해 단 일주일 만에 완료할 수 있는 효율적인 프로젝트로 전환할 수 있습니다. Spark 업그레이드 에이전트는 코드베이스 전반의 복잡한 API 변경을 자동으로 처리하여 비용과 노력을 대폭 절감하고, 엔터프라이즈 마이그레이션을 보다 간소화합니다.

Amazon EMR 서버리스는 Apache Spark 워크로드에서 로컬 스토리지를 프로비저닝할 필요를 없애, 데이터 처리 비용을 최대 20% 절감하고 디스크 용량 제약으로 인한 작업 실패를 방지합니다. EMR 서버리스는 셔플과 같은 중간 데이터 작업을 추가 스토리지 비용 없이 자동으로 처리하며, 사용자는 컴퓨팅 및 메모리 리소스에 대해서만 비용을 지불하면 됩니다.

작동 방식

1

1단계: 애플리케이션 생성

사용하려는 오픈 소스 프레임워크와 버전을 선택합니다.

2

작업 제출

API 또는 EMR Studio를 통해 애플리케이션에 작업을 제출합니다. Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 워크플로 오케스트레이션 서비스를 사용하여 작업을 제출할 수도 있습니다.

3

작업 디버그

Spark UI, Tez UI 등의 친숙한 오픈 소스 도구를 사용하여 작업을 모니터링하고 디버그합니다.

사용 사례

워크로드 수요 변화에 따라 필요한 컴퓨팅 성능과 메모리를 사전 구성할 필요 없이 매끄럽게 애플리케이션 리소스의 규모를 조정할 수 있습니다.

애플리케이션 리소스를 사전 초기화하고 SLA에 민감한 데이터 파이프라인의 응답 시간을 초 단위로 설정하는 옵션을 선택합니다.

개발 및 테스트 환경을 쉽고 빠르게 가동하고, 갑작스러운 사용량 변화에 따라 자동으로 규모를 조정하고, 제품을 더 빠르게 출시할 수 있습니다.