Amazon EMR

Apache Spark, 하둡, HBase, Presto, Hive 및 다른 빅 데이터 프레임워크를 손쉽게 실행하고 확장하십시오

Amazon EMR은 업계를 주도하는 클라우드 네이티브 빅 데이터 플랫폼으로, 방대한 양의 데이터를 대규모로 신속하면서 경제적으로 처리할 수 있게 해 줍니다. Amazon EMR은 Apache Spark, Apache Hive, Apache HBase, Apache Flink, Presto 같은 오픈 소스 도구와 Amazon EC2의 동적 확장성 그리고 Amazon S3의 확장 가능한 스토리지를 함께 활용함에 따라 기존 온프레미스 클러스터의 몇 분의 1에 해당하는 비용으로 페타바이트 규모의 분석을 실행할 수 있도록 하는 엔진과 탄력성을 분석 팀에 제공합니다. 개발자와 분석가들은 반복적인 개발, 협업 그리고 Amazon S3, Amazon DynamoDB, Amazon Redshift 같은 AWS 데이터 제품에 저장된 데이터의 액세스를 위해 Jupyter 기반 EMR Notebooks를 사용하여 통찰력을 빠르게 확보하고 분석을 운용할 수 있습니다.

많은 수직 산업의 고객들은 EMR을 사용하여 광범위한 빅 데이터 사용 사례를 안전하면서도 안정적으로 처리할 수 있는데, 이러한 사용 사례에는 기계 학습, 데이터 변환(ETL), 금융 및 과학 시뮬레이션, 생물 정보학, 로그 분석, 딥 러닝이 포함됩니다. EMR을 활용하는 팀은 수요를 충족하도록 자동으로 확장되는 전용 단기 실행 클러스터에서 사용 사례를 실행하거나, 새로운 멀티 마스터 배포 모드를 사용하여 가용성이 뛰어난 장기 실행 클러스터에서 사용 사례를 실행하는 유연성을 누릴 수 있습니다. 

An introduction to Amazon EMR(3:00)

장점

사용 편의성

EMR은 클러스터를 몇 분 만에 시작합니다. 노드 프로비저닝, 클러스터 설정, 하둡 구성 또는 클러스터 튜닝은 걱정할 필요가 없습니다. EMR이 이 작업을 모두 처리해주기 때문에 분석에만 집중할 수 있습니다. 분석가, 데이터 엔지니어, 데이터 과학자는 EMR Notebooks를 통해 서버리스 Jupyter 노트북을 몇 초 만에 시작할 수 있으며, 이를 통해 개인과 팀은 협업 관계를 바탕으로 사용이 편리한 노트북 형식으로 데이터를 탐색, 처리 및 시각화하며 상호 작용할 수 있습니다.

저렴한 비용

EMR 요금은 간단하고 예측 가능합니다. 사용한 모든 시간(초)에 대해 인스턴스당 요금을 지불하며 최소 요금은 1분입니다. Apache Spark 및 Apache Hive와 같은 애플리케이션에서는 시간당 0.15 USD와 같이 저렴한 비용으로 10개 노드 EMR 클러스터를 시작할 수 있습니다. EMR은 기본적으로 Amazon EC2 스팟 인스턴스 및 예약 인스턴스를 지원하므로 해당 인스턴스 비용을 50~80%까지 절감할 수 있습니다.

탄력성

EMR을 사용하면 컴퓨팅 인스턴스를 한 개에서 수백 개 또는 심지어 수천 개까지 원하는 대로 프로비저닝해서 데이터를 처리할 수 있습니다. 인스턴스 수는 수동 또는 자동(Auto Scaling을 통해 사용률에 따라 클러스터 크기 관리)으로 늘리거나 줄일 수 있으며, 사용한 만큼에 대해서만 요금을 지불하면 됩니다. 온프레미스 클러스터의 경직된 인프라와 달리, EMR은 컴퓨팅 및 영구 스토리지를 분리하여 각각 개별적으로 확장할 수 있게 해 줍니다.

안정성

클러스터 튜닝과 모니터링에 소요되는 시간을 줄일 수 있습니다. EMR은 클라우드에 적합하게 튜닝되어 있습니다. 또한 클러스터를 지속적으로 모니터링하여 실패한 작업을 다시 시도하고 성능이 떨어지는 인스턴스를 자동으로 교체합니다. EMR은 안정적인 최신 오픈 소스 소프트웨어 릴리스를 제공하므로, 업데이트나 버그 수정을 관리하지 않아도 되므로 문제가 줄어들고 환경을 유지하는 데 드는 노력도 줄어듭니다. 마스터 노드가 여러 개이므로 클러스터는 높은 가용성을 유지하고 노드 장애 시에 자동으로 장애 조치됩니다.

보안

EMR은 인스턴스에 대한 네트워크 액세스를 제어하는 EC2 방화벽 설정을 자동으로 구성하며, 사용자가 직접 정의하는 논리적 격리 네트워크인 Amazon Virtual Private Cloud(VPC)에서 클러스터를 시작합니다. S3에 저장된 객체의 경우, AWS Key Management Service나 고객 관리형 키를 통해 서버 측 암호화 또는 클라이언트 측 암호화를 EMRFS(S3에 하둡용으로 저장된 객체)와 함께 사용할 수 있습니다. EMR을 사용하면 전송 중 암호화 및 저장 중 암호화 같은 다른 암호화 옵션은 물론, Kerberos를 통한 강력한 인증도 손쉽게 활성화할 수 있습니다.

유연성

사용자가 클러스터를 완전히 제어할 수 있는 권한을 보유합니다. 모든 인스턴스에 대한 루트 액세스 권한을 보유하기 때문에 손쉽게 추가 애플리케이션을 설치하고 부트스트랩 작업으로 모든 클러스터를 사용자 지정할 수 있습니다. 또한 사용자 지정 Amazon Linux AMI를 통해 EMR 클러스터를 시작하고, 클러스터를 다시 시작할 필요 없이 실행 중인 클러스터를 재구성할 수도 있습니다.

사용 사례

기계 학습

확장 가능한 기계 학습 알고리즘을 위해 EMR에 내장된 기계 학습 도구(예: Apache Spark MLlib, TensorFlow, Apache MXNet)를 사용하는 것은 물론, 사용자 지정 AMI 및 부트스트랩 작업을 통해 선호하는 라이브러리 및 도구를 손쉽게 추가하여 예측 분석 도구 세트를 직접 생성하십시오.

Intent Media가 어떻게 Spark MLib를 사용하는지 알아보기 »

ETL(Extract Transform Load)

대규모 데이터 세트에 대해 정렬, 집계, 조인 등과 같은 데이터 변환 워크로드(ETL)를 신속하고 비용 효율적으로 수행하는 데 EMR을 사용할 수 있습니다.

Redfin이 ETL을 위해 어떻게 임시 EMR 클러스터를 사용하는지 알아보기 »

클릭스트림 분석

Apache Spark 및 Apache Hive를 통해 Amazon S3의 클릭 스트림 데이터를 분석하여 사용자 세그먼트를 나누고, 사용자 선호 사항을 이해하여, 좀 더 효과적인 광고를 제공하십시오.

Razorfish가 EMR을 사용하여 클릭 스트림 데이터를 분석하는 방법에 대해 알아보기 »

실시간 스트리밍

Apache Spark Streaming 및 EMR을 통해 Apache Kafka, Amazon Kinesis 또는 기타 스트리밍 데이터 원본의 이벤트를 실시간으로 분석하여 가용성이 뛰어나고 내결함성을 갖춘 장기 실행 스트리밍 데이터 파이프라인을 생성하십시오. 변환된 데이터 세트는 Amazon S3 또는 HDFS에 유지하고 통찰력은 Amazon Elasticsearch에 유지하십시오.

Hearst에서 어떻게 Spark Streaming을 사용하는지 알아보기 »

대화식 분석

EMR Notebooks는 오픈 소스 Jupyter 기반의 관리형 분석 환경으로, 데이터 과학자, 분석가 및 개발자가 데이터를 준비하고 시각화하며, 동료와 협업하고, 애플리케이션을 구축하며, 인터랙티브 분석을 수행할 수 있게 해 줍니다.

유전체학

EMR은 막대한 양의 유전자 데이터와 기타 대규모 과학 데이터 집합을 빠르고 효율적으로 처리하는 데 사용될 수 있습니다. 연구원들은 AWS에서 무료로 호스팅되는 유전자 데이터에 액세스할 수 있습니다.

Apache Spark 및 정밀 의학에 대해 알아보기 »

사례 연구

애널리스트 연구 조사

1

AWS 시작하기

Step 1 - Sign up for an AWS account

AWS 계정 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.
icon2

10분 자습서로 알아보기

간단한 자습서를 통해 자세히 알아보십시오.
icon3

AWS를 사용하여 구축 시작

AWS 프로젝트를 시작하는 데 도움이 되는 단계별 안내서를 통해 구축을 시작하십시오.

온프레미스에서 AWS로 빅 데이터 마이그레이션

Amazon EMR 마이그레이션 안내서 읽기

AWS 기반 빅 데이터에 대해 자세히 알아보기

빅 데이터 블로그로 이동하기