AWS 클라우드
AWS 클라우드
Amazon EMR 시작하기

Amazon EMR은 관리형 하둡 프레임워크로서 동적으로 확장 가능한 Amazon EC2 인스턴스 전체에서 대량의 데이터를 쉽고 빠르며 비용 효율적으로 처리할 수 있습니다. 또한, Amazon EMR에서 Apache Spark, HBase, PrestoFlink와 같이 널리 사용되는 분산 프레임워크를 실행하고, Amazon S3 및 Amazon DynamoDB와 같은 다른 AWS 데이터 스토어의 데이터와 상호 작용할 수 있습니다.

Amazon EMR은 로그 분석, 웹 인덱싱, 데이터 변환(ETL), 기계 학습, 금융 분석, 과학적 시뮬레이션 및 생물 정보학을 비롯하여 광범위한 빅 데이터 사용 사례를 안전하고 안정적으로 처리합니다.

이 사이트에서 동영상을 보려면 Adobe Flash Player 또는 최신 브라우저가 필요합니다.

amazon_emr_thumb_resize_prod_pg_378x171
6:03
Intro to Amazon EMR

확대하려면 클릭

Amazon EMR 릴리스 속도

Amazon EMR 릴리스 속도

Amazon EMR의 버전이 지정된 릴리스에서는 Apache 하둡 및 Spark 에코시스템의 애플리케이션을 비롯하여 EMR 클러스터의 최신 오픈 소스 프로젝트를 손쉽게 선택하여 사용할 수 있습니다. Amazon EMR에서 소프트웨어를 설치하고 구성하므로 사용자는 인프라와 관리 작업에 대한 걱정 없이 데이터 가치를 높이는 데 더 많은 시간을 투자할 수 있습니다.


사용 편의성

사용 편의성

Amazon EMR 클러스터를 몇 분 만에 시작할 수 있습니다. 노드 프로비저닝, 클러스터 설정, 하둡 구성 또는 클러스터 튜닝은 걱정할 필요가 없습니다. Amazon EMR이 이러한 작업을 모두 처리해주므로 분석에만 집중할 수 있습니다. 

저렴한 비용

저렴한 비용

Amazon EMR 요금은 간단하며 예측 가능합니다. 사용하는 모든 인스턴스에 시간당 요금이 부과됩니다. 노드 10개의 하둡 클러스터를 시간당 0.15 USD 정도의 비용으로 시작할 수 있습니다. Amazon EMR은 기본적으로 Amazon EC2 스팟 인스턴스 및 예약 인스턴스를 지원하므로 해당 인스턴스 비용을 50~80%까지 절감할 수 있습니다.

탄력성

탄력성

Amazon EMR을 사용하면 컴퓨팅 인스턴스를 한 개, 수백 개 또는 수천 개까지 프로비저닝하여 원하는 규모의 데이터를 처리할 수 있습니다. 수동으로 또는 Auto Scaling을 통해 인스턴스 수를 쉽게 늘리거나 줄일 수 있으며, 사용한 만큼만 비용을 지불합니다.

안정성

안정성

클러스터 튜닝과 모니터링에 소비되는 시간을 줄일 수 있습니다. Amazon EMR은 클라우드에 적합하게 하둡을 튜닝했습니다. 또한, 클러스터를 모니터링하여 실패한 작업을 다시 시도하고 성능이 떨어지는 인스턴스를 자동으로 교체합니다.

 

보안

보안

Amazon EMR이 인스턴스에 대한 네트워크 액세스를 제어하는 Amazon EC2 방화벽 설정을 자동으로 구성해주기 때문에 사용자는 직접 정의하는 논리적으로 격리된 네트워크인 Amazon Virtual Private Cloud(VPC)에서 클러스터를 시작할 수 있습니다. Amazon S3에 저장된 객체의 경우, AWS Key Management Service나 고객 관리 키를 통해 Amazon S3 서버 측 암호화 또는 Amazon S3 클라이언트 측 암호화(EMRFS 포함)를 사용할 수 있습니다.

유연성

유연성

사용자는 클러스터를 완벽하게 제어할 수 있습니다. 모든 인스턴스에 대한 루트 액세스 권한을 보유하기 때문에 손쉽게 추가 애플리케이션을 설치하고 부트스트랩 작업으로 모든 클러스터를 사용자 지정할 수 있습니다. 또한, 사용자 지정 Amazon Linux AMI를 통해 Amazon EMR 클러스터를 시작할 수 있습니다. 

클릭 스트림 분석

클릭 스트림 분석

사용자 세그먼트를 나누고, 사용자 선호 사항을 이해하여, 좀 더 효과적인 광고를 제공하도록 클릭 스트림 데이터를 분석하는 데 Amazon EMR을 사용할 수 있습니다.    
    
Razorfish가 클릭 스트림 분석에 어떻게 EMR을 사용하는지 알아보기 »

실시간 분석

실시간 분석

Amazon Kinesis나 Apache Kafka에서 또는 Amazon EMR 기반 Spark Streaming의 다른 데이터 스트림에서 실시간 데이터를 사용하고 처리합니다. 내결함성이 지원되는 방식으로 스트리밍 분석을 수행하고, Amazon S3 또는 HDFS에 결과를 작성합니다.
Hearst에서 어떻게 Spark Streaming을 사용하는지 알아보기 »

로그 분석

로그 분석

Amazon EMR은 웹 및 모바일 애플리케이션에서 생성된 로그를 처리하는 데 사용할 수 있습니다. Amazon EMR은 고객이 페타바이트 규모의 비정형 또는 반정형 데이터를 애플리케이션이나 사용자에 대한 유용한 통찰력으로 전환하는 데 도움이 됩니다.
Yelp가 EMR을 사용하여 주요 웹 사이트 기능을 구현하는 방법에 대해 알아보기 »

ETL

Extract Transform Load(ETL)

대규모 데이터 세트에 대해 정렬, 집계, 조인 등과 같은 데이터 변환 워크로드(ETL)를 신속하고 비용 효율적으로 수행하는 데 Amazon EMR을 사용할 수 있습니다.
  
Redfin이 ETL을 위해 어떻게 임시 EMR 클러스터를 사용하는지 알아보기 »

예측 분석

예측 분석

Amazon EMR 기반 Apache Spark에는 MLlib가 포함되어 있어 확장 가능한 기계 학습 알고리즘을 사용할 수 있으며, 사용자의 자체 라이브러리를 사용할 수도 있습니다. Spark는 데이터 세트를 인 메모리에 저장함으로써 일반적인 기계 학습 워크로드에 대해 뛰어난 성능을 제공할 수 있습니다.
Intent Media가 어떻게 Spark MLib를 사용하는지 알아보기 »

유전체학

유전체학

Amazon EMR은 방대한 양의 유전자 데이터와 기타 대규모 과학 데이터 집합을 빠르고 효율적으로 처리하는 데 사용할 수 있습니다. 연구원들은 AWS에서 무료로 호스팅되는 유전자 데이터에 액세스할 수 있습니다.
Apache Spark 및 정밀 의학에 대해 알아보기 »

쉽게 Amazon EMR을 시작할 수 있습니다. Getting Started Guide를 따라 첫 번째 Amazon EMR 클러스터를 시작하고 클릭 몇 번으로 데이터 분석을 시작하십시오.

 

시작하기