메인 콘텐츠로 건너뛰기

Amazon EMR

Amazon EMR

Apache Spark, Trino 및 다른 빅 데이터 워크로드를 손쉽게 실행하고 규모를 조정

Amazon EMR을 사용해야 하는 이유

Amazon EMR은 독보적인 유연성과 확장성으로 분석 워크로드를 가속화하는 빅 데이터 처리 서비스입니다. EMR은 Apache Spark, Trino, Apache Flink, Apache Hive를 위한 성능 최적화 런타임을 지원하여 비용과 처리 시간을 크게 줄입니다. 이 서비스는 AWS와 원활하게 통합되어 데이터 레이크 워크플로와 엔터프라이즈 규모의 아키텍처를 간소화합니다. 내장된 오토 스케일링, 지능형 모니터링 및 관리형 인프라를 통해 EMR은 클러스터를 관리할 필요 없이 인사이트를 도출하는 데 집중할 수 있도록 하므로, 기존 솔루션의 운영 오버헤드 없이 페타바이트 규모의 분석을 효율적으로 실현할 수 있습니다.

Missing alt text value

유연한 배포 옵션

EMR Serverless를 사용해야 하는 이유

Amazon EMR Serverless를 사용하면 데이터 분석가 및 엔지니어가 클러스터나 서버를 구성, 관리, 확장할 필요 없이, Apache Spark와 같은 오픈 소스 빅 데이터 분석 프레임워크를 손쉽게 실행할 수 있습니다.  EMR Serverless는 전문가가 클러스터를 계획하고 관리할 필요 없이 Amazon EMR의 모든 기능과 이점을 활용할 수 있는 가장 빠른 방법입니다.  

EMR Serverless

Amazon EMR on Amazon EC2를 사용해야 하는 이유

Amazon EMR on Amazon EC2는 클러스터 구성을 제어하고 장기 실행 클러스터를 지원하므로, 특정 하드웨어 설정을 필요로 하는 연속적인 데이터 처리 작업에 적합합니다. Apache Spark 및 Trino와 같은 인기 있는 프레임워크와 함께 사용자 지정 애플리케이션을 설치하는 동시에, 비용과 성능 모두 최적화할 수 있는 다양한 EC2 인스턴스 유형을 제공할 수 있습니다. 다른 AWS 서비스와의 통합 기능과 스팟 인스턴스를 사용할 수 있는 기능 덕분에, 빅 데이터 운영을 세밀하게 제어해야 하는 조직에 비용 효율적인 솔루션이 됩니다.

Amazon EMR on Amazon EKS를 사용해야 하는 이유

Amazon EMR on Amazon Elastic Kubernetes Service(Amazon EKS)를 사용하면 EMR 클러스터를 프로비저닝하지 않고도 EKS에서 필요에 따라 Apache Spark 작업을 제출할 수 있습니다. EMR on EKS를 사용하면 다른 Kubernetes 기반 애플리케이션과 동일한 Amazon EKS 클러스터에서 분석 워크로드를 실행하여 리소스 활용도를 개선하고 인프라 관리를 간소화할 수 있습니다.  

Amazon EMR on Amazon EKS

차세대 Amazon SageMaker에서 Amazon EMR을 사용하여 데이터 처리

Amazon EMR은 차세대 Amazon SageMaker에서 지원되므로, 통합 데이터 및 AI 개발 환경에서 Apache Spark, Trino 및 기타 오픈 소스 분석 프레임워크를 손쉽게 실행할 수 있습니다.

자세히 알아보세요.

Missing alt text value

장점

Amazon EMR은 비용 효율적으로 더 빠르고 처리할 수 있도록 성능이 최적화된 Apache Spark, 스팟 인스턴스 등의 다양한 인스턴스 유형을 선택할 수 있는 유연성, 클러스터를 동적으로 적절한 규모로 조정하는 완전관리형 오토 스케일링 기능을 결합하여 오버프로비저닝을 없애고 전체 지출을 줄입니다.

Amazon EMR은 API 호환성을 유지하면서 오픈 소스 Apache Spark에 비해 최대 3.9배 더 높은 성능을 제공합니다. 따라서 Apache Spark, Trino, Apache Flink 또는 Apache Hive 등 고객이 원하는 오픈 소스 프레임워크를 배포할 수 있습니다. EMR은 Iceberg, Hudi, Delta 등 인기 있는 오픈 테이블 형식을 지원하여 인사이트 확보 시간을 단축합니다.

EMR은 인프라를 관리할 필요가 없는 완전관리형 처리를 지원하는 EMR Serverless, 세분화된 클러스터 제어를 위한 EMR on EC2, Kubernetes 네이티브 빅 데이터 워크로드를 실행하기 위한 EMR on EKS 등 다양한 배포 옵션을 제공합니다. 온디맨드 작업을 위해 단기적으로 클러스터를 실행하는 경우든 지속적인 작업을 위해 장기간 실행하는 클러스터든, EMR은 유연한 리소스 할당과 효율적인 규모 조정을 통해 비용을 최적화하면서 운영 니즈에 대응합니다.

차세대 Amazon SageMaker에서 Amazon EMR을 사용하면 Apache Spark, Trino, Apache Flink 등의 오픈 소스 프레임워크를 실행하여, 인프라를 프로비저닝하거나 관리할 필요 없이 분석 워크로드를 손쉽게 확장할 수 있습니다. Amazon SageMaker에서 EMR의 기능을 사용하면 데이터 처리와 모델 개발을 통합하여 단일 협업 환경에서 원시 데이터 변환부터 AI 배포까지 엔드 투 엔드 워크플로를 지원할 수 있습니다.

사용 사례

통계 알고리즘 및 예측 모델을 사용하여 대규모 데이터 처리 및 가정 분석을 실행하여 숨겨진 패턴, 상관 관계, 시장 동향 및 고객 선호도를 밝혀냅니다.
다양한 소스에서 데이터를 추출하고 대규모로 처리하여 애플리케이션과 사용자가 사용할 수 있도록 합니다.
스트리밍 데이터 소스의 이벤트를 실시간으로 분석하여 장기 실행, 고가용성, 내결함성 스트리밍 데이터 파이프라인을 생성합니다.
Apache Spark MLlib, TensorFlow 및 Apache MXNet과 같은 오픈 소스 기계 학습 프레임워크를 사용하여 데이터를 분석합니다. 대규모 모델 훈련, 분석 및 보고를 위해 Amazon SageMaker Studio에 연결합니다.