AWS 解决方案库

使用 Spark Streaming 进行实时分析

许多组织使用批量数据和实时数据流报告来获取有关长期业务趋势的战略性和可执行的见解。越来越多的客户将流式数据处理与大数据使用案例中不断生成的动态新数据结合起来使用。流式数据用于生成报告、根据阈值执行操作或执行更加复杂的数据分析形式，如应用机器学习算法。

Real-Time Analytics with Spark Streaming 指南可使用来自商业智能架构和大数据架构的函数，自动配置必要的 AWS 服务，以轻松摄取、存储、处理及分析实时数据和批量数据。此指南将会在使用 Apache Spark Streaming 和 Amazon Kinesis 的 AWS 云上部署高度可用、安全、灵活且经济高效的流式数据分析架构。

概览

下图展示了您可以使用 GitHub 上的示例代码构建的架构。

Real-Time Analytics with Spark Streaming | 架构图

Real-Time Analytics with Spark Streaming 指南架构

该指南将会部署具有一个公有子网和一个私有子网的 Amazon Virtual Private Cloud（Amazon VPC）网络。公有子网包含一个 NAT 网关和一个堡垒主机。私有子网用于托管 Amazon EMR 集群及 Apache Zeppelin。

Amazon Kinesis Data Streams 收集来自数据源的数据，并通过 NAT 网关将数据发送至 Amazon EMR 集群。在 Spark Streaming 应用程序处理完数据之后，它会将数据存储于 Amazon S3 存储桶中。

显示简要信息