- 분석›
- Amazon EMR›
- EMR Serverless
Amazon EMR Serverless
클러스터 및 서버 관리 없이 오픈 소스 프레임워크를 사용하여 빅 데이터 애플리케이션 실행
EMR Serverless를 사용해야 하는 이유
Amazon EMR Serverless는 Amazon EMR의 서버리스 옵션으로, 데이터 분석가와 엔지니어가 클러스터나 서버를 구성 및 관리하고 규모를 조정하지 않고도 오픈 소스 빅 데이터 분석 프레임워크를 손쉽게 실행할 수 있도록 합니다. 전문가가 클러스터를 계획하고 관리할 필요 없이 Amazon EMR의 모든 기능과 이점을 활용할 수 있습니다.
장점
Apache Spark 업그레이드 에이전트를 활용하면, 수개월이 걸리던 Apache Spark 업그레이드 작업을 지능형 자동화를 통해 단 일주일 만에 완료할 수 있는 효율적인 프로젝트로 전환할 수 있습니다. Spark 업그레이드 에이전트는 코드베이스 전반의 복잡한 API 변경을 자동으로 처리하여 비용과 노력을 대폭 절감하고, 엔터프라이즈 마이그레이션을 보다 간소화합니다.
Amazon EMR 서버리스는 Apache Spark 워크로드에서 로컬 스토리지를 프로비저닝할 필요를 없애, 데이터 처리 비용을 최대 20% 절감하고 디스크 용량 제약으로 인한 작업 실패를 방지합니다. EMR 서버리스는 셔플과 같은 중간 데이터 작업을 추가 스토리지 비용 없이 자동으로 처리하며, 사용자는 컴퓨팅 및 메모리 리소스에 대해서만 비용을 지불하면 됩니다.
작동 방식
1
1단계: 애플리케이션 생성
사용하려는 오픈 소스 프레임워크와 버전을 선택합니다.
2
작업 제출
API 또는 EMR Studio를 통해 애플리케이션에 작업을 제출합니다. Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 워크플로 오케스트레이션 서비스를 사용하여 작업을 제출할 수도 있습니다.
3
작업 디버그
Spark UI, Tez UI 등의 친숙한 오픈 소스 도구를 사용하여 작업을 모니터링하고 디버그합니다.