許多組織使用批次資料和即時資料串流報告,來取得對長期商業趨勢的相關策略和可行的洞察分析。越來越多的客戶將串流資料處理與在大數據使用案例中不斷產生的新動態資料一起使用。串流資料用於產生報告、根據閾值執行動作或執行更複雜的資料分析形式,例如應用機器學習演算法。
使用 Spark Streaming 進行即時分析指引使用商業智慧架構和大數據架構中的功能,自動設定必要的 AWS 服務,以輕鬆地擷取、存放、處理和分析即時資料和批次資料。此指引在利用 Apache Spark Streaming 和 Amazon Kinesis 的 AWS 雲端上部署具備高可用性、安全、靈活、經濟實惠等特性的串流資料分析架構。
概觀
以下圖表展示了您可以使用 GitHub 上的範例程式碼建置的架構。
按一下以放大
使用 Spark Streaming 指引架構進行即時分析
此指引會部署 Amazon Virtual Private Cloud (Amazon VPC) 網路,並佈建公有子網路和私有子網路。公有子網路包含 NAT 閘道和堡壘主機。私有子網路則使用 Apache Zeppelin 託管 Amazon EMR 叢集。
Amazon Kinesis Data Streams 會從資料來源收集相關資料,並將資料透過 NAT 閘道傳送到 Amazon EMR 叢集。Spark Streaming 應用程式處理資料後,會將資料儲存在 Amazon S3 儲存貯體中。
功能
使用 Spark Streaming 進行即時分析參考實作
使用 Spark Streaming 進行即時分析指引可自動佈建和設定必要的 AWS 服務,以便在數分鐘內即可開始處理即時資料和批次資料。
Apache Zeppelin 支援
該指引充分利用 Apache Zeppelin (用於互動式資料分析的以 Web 為基礎的筆記本),讓客戶視覺化其即時資料和批次資料。
Spark Streaming 應用程式
此指引旨在使用您自己以 Java 或 Scala 編寫的應用程式。