AWS 클라우드
스트리밍 데이터 시작하기

Apache Kafka는 스트리밍 데이터를 사용하여 실시간 애플리케이션을 구축할 수 있게 해주는 오픈 소스 분산 메시징 시스템입니다. 웹 사이트 클릭스트림, 금융 트랜잭션 및 애플리케이션 로그와 같은 스트리밍 데이터를 Kafka 클러스터에 전송할 수 있으며, Kafka는 데이터를 버퍼링하고 Apache Spark Streaming, Apache Storm 또는 Apache Samza를 비롯하여 프레임워크에 구축된 스트림 처리 애플리케이션에 이를 제공합니다.

diagram-kafka

Amazon EC2에서 Kafka 배포를 실행하면 스트리밍 데이터를 위해 성능이 뛰어나고 확장 가능한 솔루션을 제공할 수 있습니다. Amazon EC2에서 Kafka를 배포하려면 EC2 인스턴스 유형을 선택 및 프로비저닝하고, Kafka 및 Apache Zookeeper를 비롯한 소프트웨어 구성 요소를 설치 및 구성한 다음, Amazon Elastic Block Store(EBS)를 사용하여 스트리밍 데이터 처리량을 수용하는 데 필요한 블록 스토리지를 프로비저닝해야 합니다. Kafka 클러스터가 예상치 못한 이벤트(스트림의 용량 한도를 넘는 데이터 볼륨의 스파이크 등)를 관리할 수 있도록, Apache Zookeeper를 사용해 복제를 구축할 수 있습니다. 이를 통해 Kafka 클러스터에 있는 노드를 계속 추적하고 노드 전체에서 프로세스 분산을 조정할 수 있습니다. Kafka가 설치되면, Kafka 클러스터의 보안을 위해 HTTPS를 배포하고, 인증 기관을 유지 관리하며, SSL용 Kafka 인스턴스를 구성해야 합니다.

Amazon EC2에서 Kafka 클러스터를 실행하면 안정적이고 확장 가능한 인프라 플랫폼을 제공할 수 있지만, 사용자가 서버 집합을 모니터링, 확장 및 관리하고, 소프트웨어 스택을 유지 관리하며, 클러스터의 보안을 관리해야 합니다. 이는 상당한 관리 부담이 될 수 있습니다. Amazon Kinesis Streams는 AWS에서 스트리밍 데이터 작업을 손쉽게 할 수 있도록 특별히 구축된 관리형 서비스를 제공함으로써 이러한 문제를 해결합니다. Amazon Kinesis Streams는 스트리밍 데이터를 안정적으로 캡처 및 저장하고, 스트림 처리 애플리케이션에 데이터를 실시간으로 제공합니다. Amazon Kinesis 콘솔에서 클릭 몇 번이면 Amazon Kinesis Streams로 관리형 스트리밍 데이터 수집 시스템을 프로비저닝할 수 있습니다. Amazon Kinesis Streams는 데이터를 3개의 가용 영역에 자동으로 복제하여 데이터 내구성을 제공합니다. AWS IAM, Amazon CloudWatch 및 AWS CloudTrail을 비롯한 다른 AWS 서비스와의 기본 통합 및 API를 통해 스트림을 손쉽게 확장, 보안 및 관리할 수 있습니다.

Amazon Kinesis Analytics상에 구축된 처리 애플리케이션 또는 Spark Streaming 및 Kinesis 클라이언트 라이브러리(KCL)를 비롯한 다른 처리 프레임워크를 통해 스트림의 데이터를 처리할 수 있습니다. 처리된 데이터는 실시간 대시보드를 지원하고, 알림을 생성하며, 동적 요금제를 구현하고, 고도로 타겟팅된 광고를 제공하는 등 다양하게 활용할 수 있습니다.

Amazon Kinesis와 Kafka 비교 정보를 보려면 여기를 클릭하십시오.

440x220_APN-Blog

이 게시물에서는 EC2에서 Apache Kafka를 설정하고, EMR 기반 Spark Streaming을 사용하여 Apache Kafka 주제로 수신되는 데이터를 처리하며, EMR 기반 Spark SQL을 사용하여 스트리밍 데이터를 쿼리하는 방법을 설명합니다.

전체 게시물 읽기 »

이 게시물에서는 Twitter 퍼블릭 스트림을 사용하여 공화당과 민주당 후보자의 성과를 거의 실시간으로 분석합니다. Amazon Kinesis Firehose, AWS Lambda(Python 함수) 및 Amazon Elasticsearch Service를 통합하여 거의 실시간 엔드 투 엔드 탐색 플랫폼을 생성하는 방법을 설명합니다.

전체 게시물 읽기 »

이 블로그 게시물에서는 AWS Lambda와 Amazon Kinesis Firehose를 사용하여 Amazon Kinesis Streams에서 Amazon S3로 데이터를 저장하는 간단하고 효과적인 방법을 소개합니다.

여기에서 전체 게시물 읽기 »

스트리밍 데이터 및 빅 데이터에 대한 추가 블로그 게시물을 보려면 AWS 빅 데이터 블로그를 방문하십시오. »


쉽게 Amazon Kinesis를 시작할 수 있습니다. AWS Management Console에 로그인하고 Amazon Kinesis를 시작하면 됩니다.

 

Amazon Kinesis 시작하기