使用 Spark Streaming 进行实时分析

许多组织使用批量数据和实时数据流报告来获取有关长期业务趋势的战略性和可执行的见解。越来越多的客户将流式数据处理与大数据使用案例中不断生成的动态新数据结合起来使用。流式数据用于生成报告、根据阈值执行操作或执行更加复杂的数据分析形式,如应用机器学习算法。

Real-Time Analytics with Spark Streaming 指南可使用来自商业智能架构和大数据架构的函数,自动配置必要的 AWS 服务,以轻松摄取、存储、处理及分析实时数据和批量数据。此指南将会在使用 Apache Spark Streaming 和 Amazon Kinesis 的 AWS 云上部署高度可用、安全、灵活且经济高效的流式数据分析架构。 

概览

下图展示了您可以使用 GitHub 上的示例代码构建的架构。

Real-Time Analytics with Spark Streaming 指南架构

该指南将会部署具有一个公有子网和一个私有子网的 Amazon Virtual Private Cloud(Amazon VPC)网络。公有子网包含一个 NAT 网关和一个堡垒主机。私有子网用于托管 Amazon EMR 集群及 Apache Zeppelin。

Amazon Kinesis Data Streams 收集来自数据源的数据,并通过 NAT 网关将数据发送至 Amazon EMR 集群。在 Spark Streaming 应用程序处理完数据之后,它会将数据存储于 Amazon S3 存储桶中。

使用 Spark Streaming 进行实时分析

版本 1.2.0
上次更新日期:2021 年 12 月
作者:AWS

此指南是否对您有帮助?
提供反馈 

功能

Real-Time Analytics with Spark Streaming 参考实施

Real-Time Analytics with Spark Streaming 指南可在几分钟内自动预置和配置开始处理实时和批量数据所需的 AWS 服务。

Apache Zeppelin 支持

该指南使用 Apache Zeppelin(一个用于交互式数据分析的基于 Web 的笔记本),支持客户显示其实时和批处理数据。

Spark Streaming 应用程序

此指南旨在使用您自己以 Java 或 Scala 编写的应用程序。
构建图标
自己部署 AWS 解决方案

浏览我们的 AWS 解决方案库,以获取常见架构问题的答案。

了解更多 
查找 APN 合作伙伴
查找 AWS 合作伙伴解决方案

查找 AWS 合作伙伴,以帮助您入门。

了解更多 
探索图标
探索指导

查找常见使用案例的规范性架构图、示例代码和技术内容。

了解更多