Real-Time Analytics with Spark Streaming

많은 조직이 배치 데이터 및 실시간 데이터 스트리밍 보고서를 사용하여 장기적인 비즈니스 추세에 대한 전략적이고 실행 가능한 인사이트를 얻습니다. 빅 데이터 사용 사례에서는 지속적으로 생성되는 새로운 동적 데이터에 스트리밍 데이터 처리를 사용하는 고객이 계속해서 증가하고 있습니다. 스트리밍 데이터는 보고서를 생성하거나 임계값에 따라 작업을 수행하거나 보다 정교한 형태의 데이터 분석(예: 기계 학습 알고리즘 적용)을 수행하는 데 사용됩니다.

Real-Time Analytics with Spark Streaming 지침은 비즈니스 인텔리전스 아키텍처 및 빅 데이터 아키텍처의 기능을 사용하여 실시간 데이터와 배치 데이터를 손쉽게 수집, 저장, 처리 및 분석하는 데 필요한 AWS 서비스를 자동으로 구성합니다. 이 지침은 Apache Spark Streaming 및 Amazon Kinesis를 활용하는 고가용성의 안전하고 유연하며 비용 효율적인 스트리밍 데이터 분석 아키텍처를 AWS 클라우드에 배포합니다. 

개요

아래의 다이어그램은 GitHub의 예제 코드를 사용하여 구축할 수 있는 아키텍처를 보여줍니다.

Real-Time Analytics with Spark Streaming 지침 아키텍처

이 지침은 하나의 퍼블릭 서브넷 및 하나의 프라이빗 서브넷을 사용하는 Amazon Virtual Private Cloud(Amazon VPC) 네트워크를 배포합니다. 퍼블릭 서브넷에는 NAT 게이트웨이 및 배스천 호스트가 포함되어 있습니다. 프라이빗 서브넷은 Apache Zeppelin이 있는 Amazon EMR 클러스터를 호스팅합니다.

Amazon Kinesis Data Streams는 데이터 원본으로부터 데이터를 수집하고 NAT 게이트웨이를 통해 Amazon EMR 클러스터로 데이터를 전송합니다. Spark Streaming 애플리케이션은 데이터를 처리한 후 해당 데이터를 Amazon S3 버킷에 저장합니다.

Real-Time Analytics with Spark Streaming

버전 1.2.0
최종 업데이트 날짜: 2021년 12월
작성자: AWS

이 가이드가 도움이 되었나요?
피드백 제공 

기능

Real-Time Analytics with Spark Streaming 참조 구현

Real-Time Analytics with Spark Streaming 지침은 몇 분 안에 실시간 및 배치 데이터 처리를 시작하는 데 필요한 AWS 서비스를 자동으로 프로비저닝하고 구성합니다.

Apache Zeppelin 지원

이 지침은 대화식 데이터 분석을 위한 웹 기반 노트북인 Apache Zeppelin을 활용하여 고객이 실시간 데이터와 배치 데이터를 모두 시각화할 수 있도록 합니다.

Spark Streaming 애플리케이션

이 지침은 Java 또는 Scala로 작성된 자체 애플리케이션을 사용하도록 설계되었습니다.
구축 아이콘
AWS 솔루션 직접 배포

AWS 솔루션 라이브러리에서 일반적인 아키텍처 문제에 대한 답을 검색해 보실 수 있습니다.

자세히 알아보기 
APN 파트너 찾기
AWS 파트너 솔루션 찾기

시작하는 데 도움이 되는 AWS 파트너를 찾아보세요.

자세히 알아보기 
살펴보기 아이콘
살펴보기 지침

일반적인 사용 사례에 대한 권장 아키텍처 다이어그램, 샘플 코드 및 기술 콘텐츠를 찾아보세요.

자세히 알아보기