Amazon EMR 上的 Apache Spark

Apache Spark 是一款常用于大数据工作负载的开源分布式处理系统。Apache Spark 利用内存中的缓存和经过优化的执行方式以实现高速性能，支持常规批处理、流式分析、机器学习、图形数据库和即席查询。

Amazon EMR 本身支持 Hadoop YARN 上的 Apache Spark，您可以从 AWS 管理控制台、AWS CLI 或 Amazon EMR API 轻松快速地创建托管的 Apache Spark 集群。此外，您还可以利用其他 Amazon EMR 功能，包括使用 Amazon EMR 文件系统 (EMRFS) 快速连接 Amazon S3、与 Amazon EC2 竞价型市场集成，以及调整命令以在集群中轻松添加或移除实例。借助 Apache Spark，您还可以使用 Apache Zeppelin 创建交互式和协作式笔记本电脑以进行数据探索。

开始使用 Amazon EMR 上的 Apache Spark

创建免费账户

需要帮助？询问我们！

有关 Apache Spark 的 AWS 大数据博客

Spark 会处理 Precision Medicine 后台的数据吗？

使用 Apache Spark 在 Amazon DynamoDB 中分析数据

优化 Spark 流传输以高效处理 Amazon Kinesis 数据流

借助 spark-submit 提交用户应用程序

直接使用 SQL 和 Spark 流传输查询 Amazon Kinesis 数据流

使用配备 Amazon EMR 上的 Spark 且支持 S3 的笔记本电脑运行外部 Zeppelin 实例

功能与优势

高速性能

通过使用有向无环图 (DAG) 执行引擎，Apache Spark 可以创建针对数据转换的高效查询计划。Apache Spark 还会将输入内容、输出内容以及内存中的中间数据存储为弹性分布式数据集 (RDD)，从而实现快速处理（不会产生 I/O 成本）并提高迭代式或交互式工作负载的性能。

加快应用程序开发速度

Apache Spark 本身支持 Java、Scala 和 Python，可为您提供多种应用程序构建语言。此外，您可以使用 Spark SQL 模块将 SQL 或 HiveQL 查询提交给 Apache Spark。除了运行应用程序以外，您还可以在集群上的 Apache Spark shell 中以交互方式直接结合使用 Apache Spark API 和 Python 或 Scala。此外，您还可以利用 Zeppelin 创建交互式和协作式笔记本电脑以进行数据探索和实现可视化。

创建多样化工作流程

Apache Spark 包括多个库，可帮助构建针对以下方面的应用程序：机器学习 (MLlib)、流处理（Spark 流传输）和图形处理 (GraphX)。这些库紧密集成在 Apache Spark 生态系统中，可即时用于处理各种使用案例。

与 Amazon EMR 功能集集成

借助 Amazon EMR Step API 提交 Apache Spark 作业，结合使用 Apache Spark 和 EMRFS 以直接访问 Amazon S3 中的数据，使用 Amazon EC2 竞价型容量节约成本，并根据您的工作负载启动长期运行的集群或临时集群。Amazon EMR 在 Hadoop YARN 上安装和管理 Apache Spark，您还可以在集群中添加其他 Hadoop 生态系统应用程序。单击此处可详细了解 Amazon EMR 功能。

客户成功案例

Yelp

Yelp 的广告定位团队设计了一些预测模型来确定用户与广告互动的几率。通过使用 Amazon EMR 上的 Apache Spark 处理大量数据来改进机器学习模型，Yelp 提高了收入和广告点击率。

《华盛顿邮报》

《华盛顿邮报》使用 Amazon EMR 上的 Apache Spark 构建模型，为其网站的推荐引擎提供强大支持，从而提高读者的参与度和满意度。它们利用 Amazon EMR 与 Amazon S3 的完美连接，以近乎实时的方式更新模型。

Intent Media

Intent Media 运营着一个用于在旅游商务网站上进行广告宣传的平台。数据团队使用 Amazon EMR 上的 Apache Spark 和 MLlib 每日摄取数 TB 的电子商务数据，并使用这些信息来支持其决策服务，从而优化客户收入。单击此处可了解更多信息。

Krux

作为用于管理客户信息的数据管理平台的一部分，Krux 使用 Apache Spark 运行许多机器学习和常规处理工作负载。Krux 结合使用临时 Amazon EMR 集群和 Amazon EC2 竞价型容量来节约成本，并将 Amazon S3 与 EMRFS 用作 Apache Spark 的数据层。