- 분석›
- Amazon EMR›
- 시작하기
Amazon EMR 시작하기
EMR 사용 방법
1. 데이터 처리 애플리케이션 개발
Java, Hive(유사 SQL 언어), Pig(데이터 처리 언어), Cascading, Ruby, Perl, Python, R, PHP, C++ 또는 Node.js를 사용할 수 있습니다. Amazon EMR은 빠르게 시작하고 실행하는 데 도움이 되는 코드 샘플과 자습서를 제공합니다.
2. Amazon S3에 애플리케이션과 데이터 업로드
업로드할 데이터가 많은 경우 AWS Import/Export Snowball(물리적 스토리지 디바이스를 사용해 데이터 업로드) 또는 AWS Direct Connect(데이터 센터에서 AWS로 연결되는 전용 네트워크 연결 구성)를 사용할 수 있습니다. 원하는 경우 실행 중인 클러스터에 직접 데이터를 쓸 수도 있습니다.
3. 클러스터 구성 및 시작
AWS Management Console, AWS CLI, SDK 또는 API를 사용하여 클러스터에서 프로비저닝할 Amazon EC2 인스턴스의 수, 사용할 인스턴스의 유형(표준, 고용량 메모리, 고성능 CPU, 고성능 I/O 등), 설치할 애플리케이션(Apache Spark, Apache Hive, Apache HBase, Presto 등), 애플리케이션 및 데이터의 위치를 지정합니다. 부트스트랩 작업을 사용하여 추가 소프트웨어를 설치하거나 기본 설정을 변경할 수 있습니다.
4. 클러스터 모니터링
Management Console, 명령줄 인터페이스, SDK 또는 API를 사용하여 클러스터의 상태와 진행 상태를 모니터링할 수 있습니다. EMR을 Amazon CloudWatch와 통합하여 모니터링하거나 경보를 실행하고 Ganglia와 같은 주요 모니터링 도구를 지원합니다. 언제든지 클러스터에 용량을 추가하거나 제거하여 데이터를 더 많이, 더 적게 처리할 수 있습니다. 문제 해결을 위해 콘솔의 간단한 디버깅 GUI를 사용할 수 있습니다.
5. 출력 가져오기
클러스터의 Amazon S3 또는 HDFS에서 출력을 가져옵니다. Amazon QuickSight, Tableau 및 MicroStrategy와 같은 도구를 사용해 데이터를 시각화합니다. 처리가 완료되면 Amazon EMR이 자동으로 클러스터를 종료합니다. 또는 클러스터를 계속 실행하여 더 많은 작업을 처리하게 할 수 있습니다.
첫 번째 클러스터를 실행할 준비가 되었습니까?
자세히 알아보기
자세히 알아보기
자습서
교육 및 도움말
Big Data on AWS 과정은 빅 데이터 워크로드에 Amazon Web Services를 어떻게 사용하는지 실습 활동을 통해 교육을 진행하도록 고안되어 있습니다. AWS는 Pig 및 Hive와 같은 광범위한 하둡 도구를 사용하여 데이터를 처리하기 위해 Amazon EMR 작업을 실행하는 방법을 보여줍니다. 또한, AWS에서는 Amazon DynamoDB와 Amazon Redshift로 작업하여 클라우드에서 빅 데이터 환경을 구축하는 방법, Amazon Kinesis의 장점, 분석/보안/비용 효과적인 빅 데이터 환경을 설계하도록 모범 사례를 활용하는 방법을 알려 줍니다. 빅 데이터 과정에 대한 자세한 내용을 보려면 여기를 클릭하세요.
Scale Unlimited는 EMR을 비롯한 빅 데이터 기술 사용법을 빠르게 익혀야 하는 회사를 대상으로 맞춤식 현장 교육을 제공합니다. 자세히 알아보려면 여기를 클릭하십시오.