Amazon EMR

Apache Spark, Hive, Presto 및 다른 빅 데이터 프레임워크를 손쉽게 실행하고 확장

Amazon EMR은 Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache HudiPresto와 같은 오픈 소스 도구를 사용하여 방대한 양의 데이터를 처리하기 위한 업계 최고의 클라우드 빅 데이터 플랫폼입니다. Amazon EMR은 프로비저닝 용량 및 클러스터 조정 등의 시간이 소요되는 작업을 자동화하여 빅데이터 환경을 쉽게 설치, 운영, 확장하게 해줍니다. EMR을 사용하면 기존 온프레미스 솔루션의 50%도 안 되는 비용으로 표준 Apache Spark보다 3배 이상 빠르게 페타바이트 규모의 분석을 실행할 수 있습니다. Amazon EC2 instance, Amazon Elastic Kubernetes Service (EKS) cluster, 또는 AWS Outposts 기반 EMR에서 워크로드를 실행할 수 있습니다.

Apache Hudi가 CDC(변경 데이터 캡처) 및 개인 정보 보호 규정을 위해 파이프라인을 단순화하는 방법 알아보기

Amazon EMR 소개(3:00)

장점

사용 편의성

분석가, 데이터 엔지니어 및 데이터 사이언티스트는 EMR Notebook을 통해 협업하고 데이터를 탐색, 처리 및 시각화하며 상호 작용할 수 있습니다. EMR 애플리케이션의 버전과 사용하려는 컴퓨팅 유형을 간단히 지정할 수 있습니다. EMR은 클러스터를 프로비저닝, 구성 및 조정할 수 있도록 지원하므로 분석 실행에 집중할 수 있습니다.

저렴한 비용

EMR 요금은 간단하고 예측 가능합니다. 사용한 모든 시간(초)에 대해 인스턴스당 요금을 지불하며 최소 요금은 1분입니다. 노드 10개의 EMR 클러스터를 시간당 0.15 USD 정도의 비용으로 시작할 수 있습니다. 일시적 워크로드인 경우 Amazon EC2 스팟, 장기 실행 워크로드인 경우 예약 인스턴스를 선택하여 인스턴스 비용을 50~80% 절약할 수 있습니다. Savings Plans를 사용할 수도 있습니다.

탄력성

온프레미스 클러스터의 유연성이 부족한 인프라와 달리 EMR은 컴퓨팅과 스토리지를 분리하여 각각 독립적으로 규모를 조정하고 Amazon S3의 계층형 스토리지를 활용할 수 있는 기능을 제공합니다. EMR을 사용하면 컴퓨팅 인스턴스 또는 컨테이너를 한 개에서 수백 개 또는 심지어 수천 개까지 원하는 대로 프로비저닝해서 데이터를 처리할 수 있습니다. 인스턴스 수는 사용률에 따라 클러스터 크기를 관리하는 Auto Scaling을 통해 자동으로 늘리거나 줄일 수 있으며, 사용한 만큼에 대해서만 요금을 지불하면 됩니다.

안정성

클러스터 튜닝과 모니터링에 소요되는 시간을 줄일 수 있습니다. EMR은 클라우드에 적합하게 튜닝되어 있습니다. 또한 클러스터를 지속적으로 모니터링하여 실패한 작업을 다시 시도하고 성능이 떨어지는 인스턴스를 자동으로 교체합니다. 클러스터는 높은 가용성을 유지하고 노드 장애 시에 자동으로 장애 조치됩니다. EMR은 안정적인 최신 오픈 소스 소프트웨어 릴리스를 제공하므로, 업데이트나 버그 수정을 관리하지 않아도 되므로 문제가 줄어들고 환경을 유지하는 데 드는 노력도 줄어듭니다.

보안

EMR은 인스턴스에 대한 네트워크 액세스를 제어하는 EC2 방화벽 설정을 자동으로 구성하며, Amazon Virtual Private Cloud(VPC)에서 클러스터를 시작합니다. AWS Key Management Service 또는 고객 관리형 키를 통해 서버 측 암호화 또는 클라이언트 측 암호화를 함께 사용할 수 있습니다. EMR을 사용하면 전송 중 암호화 및 저장 중 암호화와 같은 다른 암호화 옵션은 물론, Kerberos를 통한 강력한 인증도 손쉽게 활성화할 수 있습니다. AWS Lake Formation 또는 Apache Ranger를 사용하여 데이터베이스, 테이블 및 열에 대한 세분화된 데이터 액세스 제어를 적용할 수 있습니다.

유연성

EMR 클러스터 및 개별 EMR 작업을 완전히 제어할 수 있습니다. EMR 클러스터를 사용자 지정 Amazon Linux AMI를 통해 실행할 수 있으며 스크립트를 사용하여 클러스터를 쉽게 구성하여 추가 서드 파티 소프트웨어 패키지를 설치할 수 있습니다. EMR을 사용하면 클러스터를 다시 시작할 필요 없이 실행 중인 클러스터에서 즉시 애플리케이션을 재구성할 수 있습니다. 그리고 라이브러리 및 런타임 의존성을 Docker 컨테이너에서 지정하여 개별 작업에 대한 실행 환경을 사용자 지정할 수 있으며, 이를 작업에 제출할 수 있습니다.

배포 옵션

Amazon EC2 기반 Amazon EMR

Amazon EC2 기반 EMR을 배포하고 온디맨드, 예약 및 스팟 인스턴스의 혜택을 받을 수 있습니다. EMR은 EC2 인스턴스의 프로비저닝, 관리 및 확장을 관리합니다. AWS는 다른 클라우드 제공자에 비해 더 많은 인스턴스를 제공하여 워크로드에 최고의 성능 또는 비용을 제공하는 인스턴스를 선택하도록 합니다.

자세히 알아보기 »

Amazon EKS의 Amazon EMR

EMR을 사용하여 Apache Spark 작업을 프로비전 EMR 클러스터 없이 Amazon Elastic Kubernetes Service(EKS) 상에서 온디맨드로 실행할 수 있어 리소스 활용을 향상하고 인프라 관리를 단순화합니다. Amazon EKS는 AWS 클라우드 또는 온프레미스에서 Kubernetes 애플리케이션을 시작, 실행 및 조정할 수 있는 유연성을 제공합니다. EKS 기반 Amazon EMR을 통해 모든 애플리케이션 전반의 컴퓨팅 및 메모리 리소스를 공유하고 Kubernetes 도구 단일 세트를 사용하여 인프라에 대한 중앙 모니터링을 수행하고 관리할 수 있습니다.

자세히 알아보기 »

AWS Outposts 기반 Amazon EMR

Amazon EMR은 AWS Outposts에서 사용할 수 있으며, 이를 통해 클라우드에서와 같이 온프레미스 환경에서도 EMR을 설정, 배포, 관리 및 확장할 수 있습니다. AWS Outposts는 AWS 서비스, 인프라 및 운영 모델을 사실상 모든 데이터 센터, 코로케이션 공간 또는 온프레미스 시설로 옮길 수 있습니다.

자세히 알아보기 »

사용 사례

기계 학습

확장 가능한 기계 학습 알고리즘을 위해 EMR에 내장된 기계 학습 도구(예: Apache Spark MLlib, TensorFlow, Apache MXNet)를 사용하는 것은 물론, 사용자 지정 AMI 및 부트스트랩 작업을 통해 선호하는 라이브러리 및 도구를 손쉽게 추가하여 예측 분석 도구 세트를 직접 생성하십시오.

ETL(Extract Transform Load)

대규모 데이터 세트에 대해 정렬, 집계, 조인 등과 같은 데이터 변환 워크로드(ETL)를 신속하고 비용 효율적으로 수행하는 데 EMR을 사용할 수 있습니다.

Redfin이 ETL을 위해 어떻게 임시 EMR 클러스터를 사용하는지 알아보기 »

클릭스트림 분석

Apache Spark 및 Apache Hive를 통해 Amazon S3의 클릭 스트림 데이터를 분석하여 사용자 세그먼트를 나누고, 사용자 선호 사항을 이해하여, 좀 더 효과적인 광고를 제공하십시오.

실시간 스트리밍

Apache Spark Streaming 및 Apache Flink를 통해 Apache Kafka, Amazon Kinesis 또는 기타 스트리밍 데이터 원본의 이벤트를 실시간으로 분석하여 가용성이 뛰어나고 내결함성을 갖춘 장기 실행 스트리밍 데이터 파이프라인을 EMR에 생성하십시오. 변환된 데이터 세트는 S3 또는 HDFS에 유지하고 통찰력은 Amazon Elasticsearch Service에 유지하십시오.

Hearst에서 어떻게 Spark Streaming을 사용하는지 알아보기 »

대화식 분석

EMR Notebooks는 오픈 소스 Jupyter 기반의 관리형 분석 환경으로, 데이터 과학자, 분석가 및 개발자가 데이터를 준비하고 시각화하며, 동료와 협업하고, 애플리케이션을 구축하며, 인터랙티브 분석을 수행할 수 있게 해 줍니다.

유전체학

EMR은 막대한 양의 유전자 데이터와 기타 대규모 과학 데이터 집합을 빠르고 효율적으로 처리하는 데 사용될 수 있습니다. 연구원들은 AWS에서 무료로 호스팅되는 유전자 데이터에 액세스할 수 있습니다.

Apache Spark 및 정밀 의학에 대해 알아보기 »

사례 연구

애널리스트 연구 조사

더 보기…

새로운 소식

날짜
  • 날짜
1

AWS 시작하기

EMR 마이그레이션 안내서 읽기
마이그레이션 안내서 읽기

온프레미스에서 AWS로 빅 데이터를 마이그레이션하는 방법을 알아보십시오.

자세히 알아보기 
무료 AWS 계정에 가입
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입 
콘솔에서 EMR 구축 시작
콘솔에서 구축 시작

AWS 콘솔에서 Amazon EMR 구축을 시작하십시오.

로그인 

온프레미스에서 AWS로 빅 데이터 마이그레이션

마이그레이션 계획 수립에 도움이 되는 리소스

AWS 기반 빅 데이터 및 분석에 대해 자세히 알아보기

AWS 빅 데이터 블로그 읽기