Amazon EMR

Apache Spark, Hive, Presto 및 다른 빅 데이터 프레임워크를 손쉽게 실행하고 확장

Amazon EMR은 Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache HudiPresto와 같은 오픈 소스 도구를 사용하여 방대한 양의 데이터를 처리하기 위한 업계 최고의 클라우드 빅 데이터 플랫폼입니다. EMR을 사용하면 기존 온프레미스 솔루션의 50%도 안 되는 비용으로 표준 Apache Spark보다 3배 이상 빠르게 페타바이트 규모의 분석을 실행할 수 있습니다. 단기 실행 작업의 경우 클러스터를 가동 및 중단하고 사용된 인스턴스에 따라 초 단위로 지불하면 됩니다. 장기 실행 워크로드의 경우 수요에 맞게 자동으로 규모를 조정하는 고가용성의 클러스터를 만들 수 있습니다. Apache Spark 및 Apache Hive와 같은 오픈 소스 도구의 기존 온프레미스 배포가 있는 경우 AWS Outposts에서 EMR 클러스터를 실행할 수도 있습니다.

온프레미스 워크로드를 EMR로 마이그레이션하여 비용을 절감하고 운영을 간소화하는 방법 알아보기

Apache Hudi가 CDC(변경 데이터 캡처) 및 개인 정보 보호 규정을 위해 파이프라인을 단순화하는 방법 알아보기

Amazon EMR 소개(3:00)

장점

사용 편의성

분석가, 데이터 엔지니어 및 데이터 과학자는 EMR Notebook을 통해 개인과 팀이 쉽게 협업하고 데이터를 탐색, 처리 및 시각화하며 상호 작용할 수 있습니다. EMR 애플리케이션의 버전과 사용하려는 컴퓨팅 유형을 간단히 지정할 수 있습니다. EMR은 클러스터를 프로비저닝, 구성 및 조정할 수 있도록 지원하므로 분석 실행에 집중할 수 있습니다.

저렴한 비용

EMR 요금은 간단하고 예측 가능합니다. 사용한 모든 시간(초)에 대해 인스턴스당 요금을 지불하며 최소 요금은 1분입니다. 노드 10개의 EMR 클러스터를 시간당 0.15 USD 정도의 비용으로 시작할 수 있습니다. 일시적 워크로드인 경우 Amazon EC2 스팟, 장기 실행 워크로드인 경우 예약 인스턴스를 선택하여 인스턴스 비용을 50~80% 절약할 수 있습니다. Savings Plans를 사용할 수도 있습니다.

탄력성

온프레미스 클러스터의 유연성이 부족한 인프라와 달리 EMR은 컴퓨팅과 스토리지를 분리하여 각각 독립적으로 규모를 조정하고 Amazon S3의 계층형 스토리지를 활용할 수 있는 기능을 제공합니다. EMR을 사용하면 컴퓨팅 인스턴스를 한 개에서 수백 개 또는 심지어 수천 개까지 원하는 대로 프로비저닝해서 데이터를 처리할 수 있습니다. 인스턴스 수는 사용률에 따라 클러스터 크기를 관리하는 Auto Scaling을 통해 자동으로 늘리거나 줄일 수 있으며, 사용한 만큼에 대해서만 요금을 지불하면 됩니다.

안정성

클러스터 튜닝과 모니터링에 소요되는 시간을 줄일 수 있습니다. EMR은 클라우드에 적합하게 튜닝되어 있습니다. 또한 클러스터를 지속적으로 모니터링하여 실패한 작업을 다시 시도하고 성능이 떨어지는 인스턴스를 자동으로 교체합니다. 마스터 노드가 여러 개이므로 클러스터는 높은 가용성을 유지하고 노드 장애 시에 자동으로 장애 조치됩니다. EMR은 안정적인 최신 오픈 소스 소프트웨어 릴리스를 제공하므로, 업데이트나 버그 수정을 관리하지 않아도 되므로 문제가 줄어들고 환경을 유지하는 데 드는 노력도 줄어듭니다.

보안

EMR은 인스턴스에 대한 네트워크 액세스를 제어하는 EC2 방화벽 설정을 자동으로 구성하며, Amazon Virtual Private Cloud(VPC)에서 클러스터를 시작합니다. AWS Key Management Service 또는 고객 관리형 키를 통해 서버 측 암호화 또는 클라이언트 측 암호화를 함께 사용할 수 있습니다. EMR을 사용하면 전송 중 암호화 및 저장 중 암호화와 같은 다른 암호화 옵션은 물론, Kerberos를 통한 강력한 인증도 손쉽게 활성화할 수 있습니다. AWS Lake Formation 또는 Apache Ranger를 사용하여 데이터베이스, 테이블 및 열에 대한 세분화된 데이터 액세스 제어를 적용할 수 있습니다.

유연성

모든 인스턴스에 대한 루트 액세스 권한으로 클러스터를 완전히 제어할 수 있습니다. 사용자 정의 Amazon Linux AMI를 사용하여 EMR 클러스터를 시작하고 부트스트랩 작업으로 추가 애플리케이션을 쉽게 설치할 수 있습니다. EMR을 사용하면 클러스터를 다시 시작할 필요 없이 실행 중인 클러스터에서 즉시 애플리케이션을 재구성할 수 있습니다. 또한 Hadoop 3.0을 사용하여 Docker 컨테이너에서 라이브러리 종속성을 패키징하고 작업과 함께 제출하여 환경 종속성을 단순화할 수 있습니다.

사용 사례

기계 학습

확장 가능한 기계 학습 알고리즘을 위해 EMR에 내장된 기계 학습 도구(예: Apache Spark MLlib, TensorFlow, Apache MXNet)를 사용하는 것은 물론, 사용자 지정 AMI 및 부트스트랩 작업을 통해 선호하는 라이브러리 및 도구를 손쉽게 추가하여 예측 분석 도구 세트를 직접 생성하십시오.

ETL(Extract Transform Load)

대규모 데이터 세트에 대해 정렬, 집계, 조인 등과 같은 데이터 변환 워크로드(ETL)를 신속하고 비용 효율적으로 수행하는 데 EMR을 사용할 수 있습니다.

Redfin이 ETL을 위해 어떻게 임시 EMR 클러스터를 사용하는지 알아보기 »

클릭스트림 분석

Apache Spark 및 Apache Hive를 통해 Amazon S3의 클릭 스트림 데이터를 분석하여 사용자 세그먼트를 나누고, 사용자 선호 사항을 이해하여, 좀 더 효과적인 광고를 제공하십시오.

실시간 스트리밍

Apache Spark Streaming 및 Apache Flink를 통해 Apache Kafka, Amazon Kinesis 또는 기타 스트리밍 데이터 원본의 이벤트를 실시간으로 분석하여 가용성이 뛰어나고 내결함성을 갖춘 장기 실행 스트리밍 데이터 파이프라인을 EMR에 생성하십시오. 변환된 데이터 세트는 S3 또는 HDFS에 유지하고 통찰력은 Amazon Elasticsearch Service에 유지하십시오.

Hearst에서 어떻게 Spark Streaming을 사용하는지 알아보기 »

대화식 분석

EMR Notebooks는 오픈 소스 Jupyter 기반의 관리형 분석 환경으로, 데이터 과학자, 분석가 및 개발자가 데이터를 준비하고 시각화하며, 동료와 협업하고, 애플리케이션을 구축하며, 인터랙티브 분석을 수행할 수 있게 해 줍니다.

유전체학

EMR은 막대한 양의 유전자 데이터와 기타 대규모 과학 데이터 집합을 빠르고 효율적으로 처리하는 데 사용될 수 있습니다. 연구원들은 AWS에서 무료로 호스팅되는 유전자 데이터에 액세스할 수 있습니다.

Apache Spark 및 정밀 의학에 대해 알아보기 »

사례 연구

애널리스트 연구 조사

더 보기…

새로운 소식

날짜
  • 날짜
1

AWS 시작하기

EMR 마이그레이션 안내서 읽기
마이그레이션 안내서 읽기

온프레미스에서 AWS로 빅 데이터를 마이그레이션하는 방법을 알아보십시오.

자세히 알아보기 
무료 AWS 계정에 가입
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입 
콘솔에서 EMR 구축 시작
콘솔에서 구축 시작

AWS 콘솔에서 Amazon EMR 구축을 시작하십시오.

로그인 

온프레미스에서 AWS로 빅 데이터 마이그레이션

마이그레이션 계획 수립에 도움이 되는 리소스

AWS 기반 빅 데이터 및 분석에 대해 자세히 알아보기

AWS 빅 데이터 블로그 읽기