AWS 雲端
開始使用串流資料

Apache Kafka 是開放原始碼的分散式簡訊收發系統,讓您建置使用串流資料的即時應用程式。您可以將網站點擊流、金融交易和應用程式日誌之類的串流資料傳送到 Kafka 叢集,它會緩衝資料並將資料提供給建置在 Apache Spark Streaming、Apache Storm 或 Apache Samza 等框架上的串流處理應用程式。

diagram-kafka

Amazon EC2 上執行 Kafka 部署,可為導入的串流資料提供高效能、可擴展的解決方案。若要在 Amazon EC2 上部署 Kafka,您需要選擇和佈建 EC2 執行個體類型、安裝和設定軟體元件 (包括 Kafka 和 Apache Zookeeper),然後使用 Amazon Elastic Block Store (EBS) 佈建容納串流資料輸送量所需的區塊儲存。為了協助 Kafka 叢集對資料磁碟區峰值超過串流容量這類未預期事件進行管理,您可以使用 Apache Zookeeper 建置複寫,它會追蹤 Kafka 叢集中的節點並協調節點間程序的分發。安裝 Kafka 之後,您需要部署 HTTPS、維護憑證授權單位以及為 SSL 設定 Kafka 執行個體,以確保 Kafka 叢集的安全。

在 Amazon EC2 上執行 Kafka 叢集提供可靠、可擴展的基礎設施平台,但需要您監控、擴展和管理伺服器機群、維護軟體堆疊以及管理叢集的安全,而這些工作可能是沉重的管理負擔。Amazon Kinesis Streams 解決這個問題的方法是提供專為在 AWS 上輕鬆使用串流資料所建置的受管服務。它以可靠的方式擷取和存放串流資料,然後即時將資料提供給串流處理應用程式。只需在 Amazon Kinesis 主控台按幾下按鍵,即可使用 Amazon Kinesis Streams 佈建受管的串流資料導入系統。Amazon Kinesis Streams 會自動在三個可用區域間複寫您的資料,為資料提供耐久性。您可以使用 API 及與其他 AWS 服務 (包括 AWS IAM、Amazon CloudWatch 和 AWS CloudTrail) 的內建整合,輕鬆地擴展、保護和管理您的串流。

利用建置於 Amazon Kinesis Analytics 上的處理應用程式或包括 Spark Streaming 和 Kinesis Client Library (KCL) 在內的其他處理框架,即可處理串流中的資料。您可以使用已處理的資料為即時儀表板提供支援、產生提醒、實作動態定價、交付高度定位的廣告等等。

要進一步了解 Amazon Kinesis 與 Kafka 的分別,按一下這裡

440x220_APN-Blog

本文示範如何在 EC2 設定 Apache Kafka、使用 EMR 的 Spark Streaming 處理傳入 Apache Kafka 主題的資料,以及使用 EMR 的 Spark SQL 查詢串流資料。

閱讀整篇文章 »

在這篇文章中,我們使用 Twitter 公開串流,以近乎即時的方式分析共和黨和民主黨候選人的表現。我們為您說明如何整合 Amazon Kinesis Firehose、AWS Lambda (Python 函數) 與 Amazon Elasticsearch Service 來建立端對端、近乎即時的探索平台。

閱讀整篇文章 »

這篇部落格文章透過簡單而有效的方式,逐步引導您使用 AWS Lambda 和 Amazon Kinesis Firehose,將 Amazon Kinesis Streams 的資料持續串流到 Amazon S3。

在這裡閱讀整篇文章 »

若要閱讀更多有關串流資料和大數據的部落格文章,請瀏覽 AWS 大數據部落格 »


開始使用 Amazon Kinesis 非常簡單。只要登入 AWS 管理主控台,然後啟動 Amazon Kinesis。

 

開始使用 Amazon Kinesis