Spark ストリーミングを用いたリアルタイム分析

バッチデータとリアルタイムデータのストリーミングレポートを利用して、多くの組織が長期的なビジネストレンドに関する戦略的かつ実用的なインサイトを得ています。ビッグデータのユースケースで継続的に生成される新しい動的データを用いたストリーミングデータ処理を利用するお客様が増えています。ストリーミングデータは、レポートの作成、しきい値に基づくアクションの実行、または機械学習アルゴリズムの適用など、より高度な形式でのデータ分析を行う際に使用します。

Spark ストリーミングを用いたリアルタイム分析のガイダンスは、ビジネスインテリジェンスアーキテクチャやビッグデータアーキテクチャの機能を使って、リアルタイムデータとバッチデータの両方を簡単に取り込み、保存、処理、分析するために必要な AWS のサービスを自動的に設定します。このガイダンスは、Apache Spark ストリーミングと Amazon Kinesis を活用する AWS クラウドに、可用性、安全性、柔軟性、コスト効率がいずれも高いストリーミングデータ分析のアーキテクチャをデプロイします。 

概要

下の図表は、GitHub にあるサンプルコードを使って構築できるアーキテクチャを示しています。

Spark ストリーミングを用いたリアルタイム分析のガイダンスアーキテクチャ

このガイダンスは、1 つのパブリックサブネットと 1 つのプライベートサブネットを持つ Amazon Virtual Private Cloud (Amazon VPC) ネットワークをデプロイします。パブリックサブネットには、NAT ゲートウェイと要塞ホストが含まれています。プライベートサブネットは、Apache Zeppelin を使用して Amazon EMR クラスターをホストします。

Amazon Kinesis Data Streams はデータソースからデータを収集し、NAT ゲートウェイを介して Amazon EMR クラスターにデータを送信します。Spark Streaming アプリケーションは、データを処理した後、Amazon S3 バケットにデータを保存します。

Spark Streaming を使ったリアルタイム分析

バージョン 1.2.0
最終更新日: 2021 年 12 月
作成者: AWS

このガイダンスは役に立ちましたか?
フィードバックを送る 

機能

Spark ストリーミングを用いたリアルタイム分析のリファレンス実装

Spark ストリーミングを用いたリアルタイム分析のガイダンスは、リアルタイムデータとバッチデータの処理を数分で開始するために必要な AWS のサービスを自動的にプロビジョニングして構成します。

Apache Zeppelin のサポート

このガイダンスは、インタラクティブなデータ分析用のウェブベースのノートブックである Apache Zeppelin を活用して、顧客がリアルタイムデータとバッチデータの両方を視覚化できるようにします。

Spark ストリーミングアプリケーション

このガイダンスは Java または Scala で書かれたお客様独自のアプリケーションを使用できるように設計されています。
アイコンを作成する
自分で AWS ソリューションをデプロイする

よくみられるアーキテクチャ上の問題に関して答えを知るため、AWS ソリューション実装のライブラリを閲覧する。

詳細 
APN パートナーを見つける
AWS パートナーソリューションを見つける

サービスの開始をサポートする AWS パートナーを見つけましょう。

詳細 
アイコンについて調べる
ガイダンスを詳しく見る

一般的なユースケースのための規範的なアーキテクチャ図、サンプルコード、技術コンテンツを見つけます。

詳細