프로젝트 시작하기

5단계  |  60분

Analyze_Big_Data_HERO-ART_SM

Amazon EMR은 Apache 하둡과 Spark를 쉽고 빠르며 비용 효율적으로 실행하여 대량의 데이터를 처리할 수 있게 해주는 관리형 서비스입니다. 또한, Amazon EMR은 Presto, Hive, Pig, HBase 등과 같은 강력하고 입증된 하둡 도구를 지원합니다. 이 프로젝트에서는 모든 기능이 작동하는 하둡 클러스터를 배포하여 몇 분 만에 로그 데이터를 분석할 준비를 갖추게 됩니다. 먼저 Amazon EMR 클러스터를 시작한 다음, HiveQL 스크립트를 사용하여 Amazon S3 버킷에 저장된 샘플 로그 데이터를 처리합니다. HiveQL은 데이터 웨어하우징과 분석을 위한 SQL 유사 스크립트 언어입니다. 그런 다음 비슷한 설정을 사용하여 자체 로그 파일을 분석할 수 있습니다.

aws-project_analyze-big-data_diagram
프로젝트 시작하기

수행할 수 있는 작업:

Amazon EMR을 사용하여 모든 기능이 작동하는 하둡 클러스터를 시작합니다.

Amazon S3에 저장된 샘플 로그 데이터에 대한 스키마를 정의하고 테이블을 생성합니다.

HiveQL 스크립트를 사용하여 데이터를 분석하고 결과를 다시 Amazon S3에 작성합니다.

컴퓨터에 결과를 다운로드하여 봅니다.

시작하기 전에 필요한 항목:

AWS 계정: 웹 사이트를 호스팅하기 위해 리소스를 프로비저닝하려면 AWS 계정이 필요합니다. AWS에 가입하기.

IT 경험: 이 프로젝트를 완료하기 위해서는 하둡을 사용한 경험이 있는 것이 좋지만, 필수 사항은 아닙니다.

AWS 경험: 이 프로젝트를 완료하기 위해서는 Amazon S3 및 Amazon EC2 키 페어에 대한 기본 지식이 권장되지만 필수 사항은 아닙니다.

예상 요금:

프로젝트 완료 비용: 이 프로젝트를 완료하는 데는 1.05 USD의 비용이 발생할 것으로 예상됩니다. 이는 AWS 프리 티어 범위 내에서 사용하고, 권장 구성을 따르며, 프로젝트에 사용되는 모든 리소스를 생성 후 1시간 이내에 종료한다고 가정할 때의 비용입니다. 고객의 사용 사례에 따라 다른 구성이 필요할 수 있으며 이는 청구서에 영향을 미칠 수 있습니다. 월 사용량 계산기를 사용하면 요구 사항에 맞춰 비용을 추정할 수 있습니다.

월별 예상 요금: 이 프로젝트의 총비용은 사용량과 구성 설정에 따라 달라집니다. 본 안내서에서 권장하는 기본 구성을 사용하는 경우 이 프로젝트에는 일반적으로 월 769 USD의 비용이 듭니다. AWS 요금은 개별 서비스의 사용량을 기준으로 합니다. 각 서비스의 사용량을 모두 합하여 월별 청구서가 생성됩니다. 아래 탭을 살펴보고 각 서비스가 수행하는 작업과 청구서에 미치는 영향을 확인하십시오. 사용된 서비스 및 관련 비용의 내역은 사용 서비스 및 비용을 참조하십시오.


AWS 기반 빅 데이터 솔루션에 대해 자세히 알아보고 웹 세미나에 등록하십시오.

Amazon EMR의 기능, 이점 및 주요 사용 사례를 알아보십시오.

AWS를 시작하는 데 추가 리소스가 필요하십니까? 자세히 알아보려면 시작하기 리소스 센터를 방문하십시오.