Spark | 亚马逊AWS官方博客

Spark on EKS在Graviton2实例上的性能调优实践

Kylin 4 集成 Amazon Glue Catalog！

Kylin 4 集成 Amazon Glue Catalog

Spark SQL 任务迁移到Amazon EMR 及性能调优

介绍了如何把IDC里的ETL任务快速迁移上云，并在保证低成本的同时，提升了性能表现，降低代码改动量和运维成本。

在 Kubernetes 上优化 Spark 性能

要保证Spark工作负载的良好运行，我们必须在计算、网络与存储资源的I/O中做出权衡与优化。客户永远希望以最佳性能与最低成本的前提下运行此类工作负载。为了满足需求，Kubernetes提供多种调整选项，而本文涵盖了其中几项值得关注的优化技巧。希望大家能够由此得到启发，灵活运用最佳实践以改善Spark性能。如果大家还有更多意见或者建议，也请在eks-spark-benchmark GitHub repo上创建问题留下您的反馈。

Verizon Media Group 如何从本地 Apache Hadoop 与 Spark 迁移至 Amazon EMR

我们的大数据管道已经在Amazon EMR上运行超过一年，且所有数据都存储在S3当中。在特定时段中，我们实时处理管道的峰值速率高达每秒200多万个事件，而从事件出现到汇总结果更新，总体处理延迟仅为1分钟。Amazon EMR为我们带来出色的灵活性，帮助我们在几分钟之内快速完成集群的清理与重新创建。我们对Amazon EMR平台的整体稳定性非常满意，也将继续与AWS一道探索EMR的进一步改善之道。

在 Amazon EMR 上使用 Dr. Elephant 与 Sparklens 实现 Hadoop 与 Spark 性能调优

本文介绍了如何在Amazon EMR集群上启动Dr. Elephant与Sparklens工具，以及如何尝试针对计算与内存密集型作业做出优化与性能调整。Dr. Elephant与Sparklens可以帮助大家提高数据集并行性与计算节点利用率，借此加快作业执行速度并提高内存管理效率。凭借工作负载调优与集群并行性控制，这两款工具还能帮助大家克服Spark与Hive作业处理中常见的各类挑战。

Drop 如何使用 Amazon EMR for Spark 实现成本减半，并将处理速度提升5.4倍

Amazon EMR帮助Drop公司充分发挥数据资产的力量，据此做出更明智的产品与业务决策。我们使用Amazon EMR功能改善数据处理管道的整体性能与成本效率，借此获得了巨大的商业成功，这又反过来敦促我们持续探索管道改进的新方法。最终，我们意识到只有与最新AWS技术以及Amazon EMR功能保持同步，才能不断将业务系统的运营效率提升至新的高点。