バッチデータとリアルタイムデータのストリーミングレポートを利用して、多くの組織が長期的なビジネストレンドに関する戦略的かつ実用的なインサイトを得ています。ビッグデータのユースケースで継続的に生成される新しい動的データを用いたストリーミングデータ処理を利用するお客様が増えています。ストリーミングデータは、レポートの作成、しきい値に基づくアクションの実行、または機械学習アルゴリズムの適用など、より高度な形式でのデータ分析を行う際に使用します。
Spark ストリーミングを用いたリアルタイム分析のガイダンスは、ビジネスインテリジェンスアーキテクチャやビッグデータアーキテクチャの機能を使って、リアルタイムデータとバッチデータの両方を簡単に取り込み、保存、処理、分析するために必要な AWS のサービスを自動的に設定します。このガイダンスは、Apache Spark ストリーミングと Amazon Kinesis を活用する AWS クラウドに、可用性、安全性、柔軟性、コスト効率がいずれも高いストリーミングデータ分析のアーキテクチャをデプロイします。
概要
下の図表は、GitHub にあるサンプルコードを使って構築できるアーキテクチャを示しています。
Spark ストリーミングを用いたリアルタイム分析のガイダンスアーキテクチャ
このガイダンスは、1 つのパブリックサブネットと 1 つのプライベートサブネットを持つ Amazon Virtual Private Cloud (Amazon VPC) ネットワークをデプロイします。パブリックサブネットには、NAT ゲートウェイと要塞ホストが含まれています。プライベートサブネットは、Apache Zeppelin を使用して Amazon EMR クラスターをホストします。
Amazon Kinesis Data Streams はデータソースからデータを収集し、NAT ゲートウェイを介して Amazon EMR クラスターにデータを送信します。Spark Streaming アプリケーションは、データを処理した後、Amazon S3 バケットにデータを保存します。