亚马逊AWS官方博客

Tag: Spark

在 Kubernetes 上优化 Spark 性能

要保证Spark工作负载的良好运行,我们必须在计算、网络与存储资源的I/O中做出权衡与优化。客户永远希望以最佳性能与最低成本的前提下运行此类工作负载。为了满足需求,Kubernetes提供多种调整选项,而本文涵盖了其中几项值得关注的优化技巧。希望大家能够由此得到启发,灵活运用最佳实践以改善Spark性能。如果大家还有更多意见或者建议,也请在eks-spark-benchmark GitHub repo上创建问题留下您的反馈。

Verizon Media Group 如何从本地 Apache Hadoop 与 Spark 迁移至 Amazon EMR

我们的大数据管道已经在Amazon EMR上运行超过一年,且所有数据都存储在S3当中。在特定时段中,我们实时处理管道的峰值速率高达每秒200多万个事件,而从事件出现到汇总结果更新,总体处理延迟仅为1分钟。Amazon EMR为我们带来出色的灵活性,帮助我们在几分钟之内快速完成集群的清理与重新创建。我们对Amazon EMR平台的整体稳定性非常满意,也将继续与AWS一道探索EMR的进一步改善之道。

在 Amazon EMR 上使用 Dr. Elephant 与 Sparklens 实现 Hadoop 与 Spark 性能调优

本文介绍了如何在Amazon EMR集群上启动Dr. Elephant与Sparklens工具,以及如何尝试针对计算与内存密集型作业做出优化与性能调整。Dr. Elephant与Sparklens可以帮助大家提高数据集并行性与计算节点利用率,借此加快作业执行速度并提高内存管理效率。凭借工作负载调优与集群并行性控制,这两款工具还能帮助大家克服Spark与Hive作业处理中常见的各类挑战。

Drop 如何使用 Amazon EMR for Spark 实现成本减半,并将处理速度提升5.4倍

Amazon EMR帮助Drop公司充分发挥数据资产的力量,据此做出更明智的产品与业务决策。我们使用Amazon EMR功能改善数据处理管道的整体性能与成本效率,借此获得了巨大的商业成功,这又反过来敦促我们持续探索管道改进的新方法。最终,我们意识到只有与最新AWS技术以及Amazon EMR功能保持同步,才能不断将业务系统的运营效率提升至新的高点。