亚马逊AWS官方博客

在 Amazon EMR 上监控 Spark Streaming 应用程序

如何监控和调优Spark Streaming实时应用程序是一项非常挑战的工作,您需要随时应对环境中发生的种种变化。另外,还需要监控源数据流和作业的输出,从而可以了解全面的情况。Spark是一套非常灵活并且丰富的框架,它能够提供多种方式来对任务进行监控。本文主要探讨了其中一种有效的方法,使用SparkListeners并将提取到的指标与CloudWatch指标相集成,从而实现监控Spark Streaming微批处理程序的性能。

Read More

在 Amazon EMR 上使用 Dr. Elephant 与 Sparklens 实现 Hadoop 与 Spark 性能调优

本文介绍了如何在Amazon EMR集群上启动Dr. Elephant与Sparklens工具,以及如何尝试针对计算与内存密集型作业做出优化与性能调整。Dr. Elephant与Sparklens可以帮助大家提高数据集并行性与计算节点利用率,借此加快作业执行速度并提高内存管理效率。凭借工作负载调优与集群并行性控制,这两款工具还能帮助大家克服Spark与Hive作业处理中常见的各类挑战。

Read More

如何使用 Apache Spark 与 Amazon EMR 改善 FRTB 的内部模型方法实现

随着金融机构积极拥抱FRTB,AWS提供的定性式解决方案将帮助更多组织满足愈发严苛的业务需求。凭借着AWS出色的弹性与速度表现,金融机构可以更快地响应新的、更复杂的法规要求。我们参考实例展示了金融机构如何实际使用AWS计算、存储以及其他服务资源。

Read More

Bottlerocket:一套专用型容器操作系统

Bottlerocket是一套与传统通用型Linux发行版完全不同的操作系统,我们坚信其中承载的种种变化将给用户的安全性与运营带来长期改善。我们也希望Bottlerocket中内置的各类工具(包括紧急状态下专用的admin容器等机制)能够帮助各位简化工作负载迁移流程。

Read More

Drop 如何使用 Amazon EMR for Spark 实现成本减半,并将处理速度提升5.4倍

Amazon EMR帮助Drop公司充分发挥数据资产的力量,据此做出更明智的产品与业务决策。我们使用Amazon EMR功能改善数据处理管道的整体性能与成本效率,借此获得了巨大的商业成功,这又反过来敦促我们持续探索管道改进的新方法。最终,我们意识到只有与最新AWS技术以及Amazon EMR功能保持同步,才能不断将业务系统的运营效率提升至新的高点。

Read More

聊聊 AWS Fargate 在容器世界中的角色定位

在本文中,我们从宏观层面介绍了AWS Fargate的技术背景与开发权衡,特别是其与AWS容器产品组合(即ECS与EKS)内其他技术的关系。之前我们曾反复强调,虽然AWS一直以解决客户的实际问题为己任,但也同样重视对技术栈内各个环节与元素的剖析与定位。只有以不同方式重新整合这些环节与元素,技术成果才能真正发挥其全部潜能。如果您身为AWS技术合作伙伴,那么只有明确理解Fargate项目的本质,才能够与其顺利集成。

Read More