此 AWS 解决方案实施有何用途?

许多组织使用批量数据和实时数据流报告来获取有关长期业务趋势的战略性和可执行的见解。越来越多的客户将流式数据处理与大数据使用案例中不断生成的动态新数据结合起来使用。流式数据用于生成报告、根据阈值执行操作或执行更加复杂的数据分析形式,如应用机器学习算法。

Real-Time Analytics with Spark Streaming 解决方案可使用来自商业智能架构和大数据架构的函数,自动配置必要的 AWS 服务,以轻松摄取、存储、处理及分析实时数据和批量数据。此解决方案将会在使用 Apache Spark Streaming 和 Amazon Kinesis 的 AWS 云上部署高度可用、安全、灵活且经济高效的流式数据分析架构。以下部分假定您了解在 AWS 云上进行架构、流式处理数据和数据分析的基本知识。

AWS 解决方案实施概览

该解决方案将会在 AWS 上自动配置批处理和实时数据处理架构。Real-Time Analytics with Spark Streaming 解决方案设计支持自定义 Apache Spark Streaming 应用程序,并利用 Amazon EMR 处理可动态扩展的 Amazon Elastic Compute Cloud (Amazon EC2) 实例中的海量数据。下图表示您可以使用该解决方案实现指南和随附的 AWS CloudFormation 模板在几分钟内完成部署的 Real-Time Analytics 架构。

Real-Time Analytics with Spark Streaming | 架构图
 单击可放大

Real-Time Analytics with Spark Streaming 解决方案架构

该解决方案将会部署具有一个公有子网和一个私有子网的 Amazon Virtual Private Cloud (Amazon VPC) 网络。公有子网包含一个 NAT 网关和一个堡垒主机。私有子网用于托管 Amazon EMR 集群及 Apache Zeppelin。

使用您的自定义 Spark Streaming 应用程序,或者部署 AWS 提供的演示应用程序,以启动示例数据处理环境。应用程序部署在 Amazon EMR 集群上。

Amazon Kinesis Data Streams 收集来自数据源的数据,并通过 NAT 网关将数据发送至 Amazon EMR 集群。在 Spark Streaming 应用程序处理完数据之后,它会将数据存储于 Amazon S3 存储桶中。

Real-Time Analytics with Spark Streaming

版本 1.1.0
上次更新时间:2020 年 4 月
作者:AWS

预计部署时间:15 分钟

使用下面的按钮订阅解决方案更新。

注意:要订阅 RSS 更新,您必须为您正在使用的浏览器启用 RSS 插件。 

此解决方案实施是否能为您提供帮助?
提供反馈 

功能

Real-Time Analytics with Spark Streaming 参考实施

Real-Time Analytics with Spark Streaming 解决方案是一款由 AWS 提供的参考实施,可自动预置和配置在几分钟内开始处理实时和批处理数据所需的 AWS 服务。

Spark Streaming 应用程序

该解决方案设计使用您自己的、以 Java 或 Scala 编写的应用程序,但它还包括一个演示应用程序,您可以部署该演示应用程序,以便进行测试。

Apache Zeppelin 支持

该解决方案使用 Apache Zeppelin(一个用于交互式数据分析的基于 Web 的笔记本),支持客户显示其实时和批处理数据。
构建图标
自己部署解决方案

浏览我们的 AWS 解决方案实施库,以获取常见架构问题的答案。

了解更多 
查找 APN 合作伙伴
查找 APN 合作伙伴

寻找 AWS 认证的咨询和技术合作伙伴,以帮助您入门。

了解更多 
探索图标
了解解决方案咨询服务

浏览我们的咨询服务组合,以获取经过 AWS 审查的解决方案部署帮助。

了解更多