이 AWS 솔루션 구현은 어떤 기능을 제공합니까?
많은 조직이 배치 데이터 및 실시간 데이터 스트리밍 보고서를 사용하여 장기적인 비즈니스 추세에 대한 전략적이고 실행 가능한 인사이트를 얻습니다. 빅 데이터 사용 사례에서는 지속적으로 생성되는 새로운 동적 데이터에 스트리밍 데이터 처리를 사용하는 고객이 계속해서 증가하고 있습니다. 스트리밍 데이터는 보고서를 생성하거나 임계값에 따라 작업을 수행하거나 보다 정교한 형태의 데이터 분석(예: 기계 학습 알고리즘 적용)을 수행하는 데 사용됩니다.
Real-Time Analytics with Spark Streaming 솔루션은 비즈니스 인텔리전스 아키텍처 및 빅 데이터 아키텍처의 기능을 사용하여 실시간 데이터와 배치 데이터를 손쉽게 수집, 저장, 처리 및 분석하는 데 필요한 AWS 서비스를 자동으로 구성합니다. 이 솔루션은 Apache Spark Streaming 및 Amazon Kinesis를 활용하는 고가용성의 안전하고 유연하며 비용 효율적인 스트리밍 데이터 분석 아키텍처를 AWS 클라우드에 배포합니다. 다음 섹션에서는 AWS 클라우드의 아키텍처 설계, 스트리밍 데이터 및 데이터 분석에 대한 기본 지식이 있다고 가정합니다.
AWS 솔루션 구현 개요
이 솔루션은 AWS에서 배치 및 실시간 데이터 처리 아키텍처를 자동으로 구성합니다. Real-Time Analytics with Spark Streaming 솔루션은 사용자 지정 Apache Spark Streaming 애플리케이션을 지원하도록 설계되었으며 Amazon EMR을 활용하여 동적으로 확장 가능한 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스에서 방대한 양의 데이터를 처리합니다. 아래 다이어그램은 솔루션의 구현 안내서와 함께 AWS CloudFormation 템플릿을 사용하여 배포할 수 있는 Real-Time Analytics 아키텍처를 보여줍니다.

Real-Time Analytics with Spark Streaming 솔루션 아키텍처
이 솔루션은 하나의 퍼블릭 서브넷 및 하나의 프라이빗 서브넷을 사용하는 Amazon Virtual Private Cloud(Amazon VPC) 네트워크를 배포합니다. 퍼블릭 서브넷에는 NAT 게이트웨이 및 배스천 호스트가 포함되어 있습니다. 프라이빗 서브넷은 Apache Zeppelin이 있는 Amazon EMR 클러스터를 호스팅합니다.
사용자 지정 Spark Streaming 애플리케이션을 사용하거나 AWS 제공 데모 애플리케이션을 배포하여 예제 데이터 처리 환경을 시작하십시오. 애플리케이션은 Amazon EMR 클러스터에서 배포됩니다.
Amazon Kinesis Data Streams는 데이터 원본으로부터 데이터를 수집하고 NAT 게이트웨이를 통해 Amazon EMR 클러스터로 데이터를 전송합니다. Spark Streaming 애플리케이션은 데이터를 처리한 후 해당 데이터를 Amazon S3 버킷에 저장합니다.
Real-Time Analytics with Spark Streaming
버전 1.1.0
최종 업데이트 날짜: 2020년 4월
작성: AWS
예상 배포 시간: 15분
참고: RSS 업데이트에 가입하려면 사용 중인 브라우저에 대해 RSS 플러그인이 활성화되어 있어야 합니다.