亚马逊AWS官方博客
Tag: Spark
Spark on EKS在Graviton2实例上的性能调优实践
Spark on EKS在Graviton2实例上的性能调优实践
Kylin 4 集成 Amazon Glue Catalog!
Kylin 4 集成 Amazon Glue Catalog
Spark SQL 任务迁移到Amazon EMR 及性能调优
介绍了如何把IDC里的ETL任务快速迁移上云,并在保证低成本的同时,提升了性能表现,降低代码改动量和运维成本。
在 Kubernetes 上优化 Spark 性能
要保证Spark工作负载的良好运行,我们必须在计算、网络与存储资源的I/O中做出权衡与优化。客户永远希望以最佳性能与最低成本的前提下运行此类工作负载。为了满足需求,Kubernetes提供多种调整选项,而本文涵盖了其中几项值得关注的优化技巧。希望大家能够由此得到启发,灵活运用最佳实践以改善Spark性能。如果大家还有更多意见或者建议,也请在eks-spark-benchmark GitHub repo上创建问题留下您的反馈。
Verizon Media Group 如何从本地 Apache Hadoop 与 Spark 迁移至 Amazon EMR
我们的大数据管道已经在Amazon EMR上运行超过一年,且所有数据都存储在S3当中。在特定时段中,我们实时处理管道的峰值速率高达每秒200多万个事件,而从事件出现到汇总结果更新,总体处理延迟仅为1分钟。Amazon EMR为我们带来出色的灵活性,帮助我们在几分钟之内快速完成集群的清理与重新创建。我们对Amazon EMR平台的整体稳定性非常满意,也将继续与AWS一道探索EMR的进一步改善之道。
在 Amazon EMR 上使用 Dr. Elephant 与 Sparklens 实现 Hadoop 与 Spark 性能调优
本文介绍了如何在Amazon EMR集群上启动Dr. Elephant与Sparklens工具,以及如何尝试针对计算与内存密集型作业做出优化与性能调整。Dr. Elephant与Sparklens可以帮助大家提高数据集并行性与计算节点利用率,借此加快作业执行速度并提高内存管理效率。凭借工作负载调优与集群并行性控制,这两款工具还能帮助大家克服Spark与Hive作业处理中常见的各类挑战。
Drop 如何使用 Amazon EMR for Spark 实现成本减半,并将处理速度提升5.4倍
Amazon EMR帮助Drop公司充分发挥数据资产的力量,据此做出更明智的产品与业务决策。我们使用Amazon EMR功能改善数据处理管道的整体性能与成本效率,借此获得了巨大的商业成功,这又反过来敦促我们持续探索管道改进的新方法。最终,我们意识到只有与最新AWS技术以及Amazon EMR功能保持同步,才能不断将业务系统的运营效率提升至新的高点。
使用 Spark 与 Apache Arrow 同时训练多个机器学习模型
Spark是一套分布式计算框架,通过PyArrow实现了Pandas UDF等多项新功能。我们可以使用Spark的分布式与高级机器学习模型生命周期功能构建起具有大批量生产模型的规模化产品。
在EMR 6.0.0 中使用 Docker 简化您的 Spark 依赖项管理
本文向大家讲解了如何使用Amazon EMR 6.0.0与Docker简化Spark中的依赖项管理流程。我们创建一套Docker镜像以打包现有Python依赖项,创建一个集群并将其设定为使用Docker运行时,而后将创建的Docker镜像与EMR Notebook配合使用以运行PySpark作业。