AWS 기반 빅 데이터
Amazon EMR, Amazon Redshift, Amazon Kinesis, Amazon Athena 및 다른 AWS 빅 데이터 플랫폼을 활용하여 데이터를 처리하고 빅 데이터 환경을 만드는 방법에 대해 알아보기
이 과정에서는 Amazon EMR, Amazon Redshift, Amazon Kinesis 및 기타 AWS 빅 데이터 플랫폼과 같은 클라우드 기반 빅 데이터 솔루션에 대해 배웁니다. Amazon EMR을 사용하여 Hive 및 Hue와 같은 광범위한 하둡 도구 에코시스템을 통해 데이터를 처리하는 방법을 보여줍니다. 또한, 빅 데이터 환경을 생성하고, Amazon DynamoDB, Amazon Redshift, Amazon QuickSight, Amazon Athena 및 Amazon Kinesis로 작업하고, 모범 사례를 활용해 안전하고 비용 효율적인 빅 데이터 환경을 설계하는 방법을 가르칩니다.
과정 목표
이 과정에서 배우게 될 내용은 다음과 같습니다.
- 빅 데이터 에코시스템에 적합한 AWS 솔루션
- Amazon EMR의 맥락에서 Apache 하둡 사용
- Amazon EMR 클러스터의 구성 요소를 파악한 후 Amazon EMR 클러스터를 시작 및 구성
- Hive, Pig, 스트리밍을 비롯해 Amazon EMR에 사용 가능한 일반적인 프로그래밍 프레임워크 사용
- Hue(Hadoop User Experience)를 사용하여 Amazon EMR의 사용 편의성 개선
- Amazon EMR에서 Apache Spark를 통해 인 메모리 분석 사용
- 적절한 AWS 데이터 스토리지 옵션 선택
- 거의 실시간 빅 데이터 처리를 위해 Amazon Kinesis를 사용하는 이점 파악
- Amazon Redshift를 활용해 데이터를 효율적으로 저장 및 분석
- 빅 데이터 솔루션의 비용과 보안을 이해하고 관리
- 데이터 수집, 전송, 압축 옵션 파악
- 임시 쿼리 분석에 Amazon Athena 활용
- AWS Glue를 사용하여 ETL(추출, 변환 및 로드) 워크로드를 자동화
- Amazon QuickSight로 데이터와 쿼리를 표시하기 위해 시각화 소프트웨어 사용
수강 대상
본 교육 과정의 대상은 다음과 같습니다.
- 솔루션스 아키텍트
- 시스템 운영 관리자
- 데이터 과학자
- 데이터 분석가