많은 조직이 배치 데이터 및 실시간 데이터 스트리밍 보고서를 사용하여 장기적인 비즈니스 추세에 대한 전략적이고 실행 가능한 인사이트를 얻습니다. 빅 데이터 사용 사례에서는 지속적으로 생성되는 새로운 동적 데이터에 스트리밍 데이터 처리를 사용하는 고객이 계속해서 증가하고 있습니다. 스트리밍 데이터는 보고서를 생성하거나 임계값에 따라 작업을 수행하거나 보다 정교한 형태의 데이터 분석(예: 기계 학습 알고리즘 적용)을 수행하는 데 사용됩니다.
Real-Time Analytics with Spark Streaming 지침은 비즈니스 인텔리전스 아키텍처 및 빅 데이터 아키텍처의 기능을 사용하여 실시간 데이터와 배치 데이터를 손쉽게 수집, 저장, 처리 및 분석하는 데 필요한 AWS 서비스를 자동으로 구성합니다. 이 지침은 Apache Spark Streaming 및 Amazon Kinesis를 활용하는 고가용성의 안전하고 유연하며 비용 효율적인 스트리밍 데이터 분석 아키텍처를 AWS 클라우드에 배포합니다.
개요
아래의 다이어그램은 GitHub의 예제 코드를 사용하여 구축할 수 있는 아키텍처를 보여줍니다.

Real-Time Analytics with Spark Streaming 지침 아키텍처
이 지침은 하나의 퍼블릭 서브넷 및 하나의 프라이빗 서브넷을 사용하는 Amazon Virtual Private Cloud(Amazon VPC) 네트워크를 배포합니다. 퍼블릭 서브넷에는 NAT 게이트웨이 및 배스천 호스트가 포함되어 있습니다. 프라이빗 서브넷은 Apache Zeppelin이 있는 Amazon EMR 클러스터를 호스팅합니다.
Amazon Kinesis Data Streams는 데이터 원본으로부터 데이터를 수집하고 NAT 게이트웨이를 통해 Amazon EMR 클러스터로 데이터를 전송합니다. Spark Streaming 애플리케이션은 데이터를 처리한 후 해당 데이터를 Amazon S3 버킷에 저장합니다.