亚马逊AWS官方博客
Tag: 故障注入测试
AWS云上混沌工程实践之对照实验设计篇
本文是混沌工程专栏的第三篇,首先我们回顾了专栏前两篇中的重要结论,由此引申出“如何进行对照实验设计”这个实施性问题,并从实验可行性评估、观测指标设计与对照、实验场景和环境的设计三个维度,深入分析和讨论了混沌工程实验的对照设计原则和方法,后续我们还会针对特定专题进行剖析。
AWS云上混沌工程实践之可行性评估篇
综上,本文是混沌工程专栏的第二篇。本文厘清了混沌工程实验的目标,混沌工程就是利用实验提前探知系统风险,通过架构优化和运维模式的改进来解决系统风险,真正实现上述韧性架构,降低企业损失,提高故障免疫力。在该目标的指导下,通过对混沌工程的成熟度等级和接纳指数的深入描述,探讨了如何通过上述可行性评估模型来衡量混沌工程实验的可行性、有效性和安全性,以及未来的路线图计划。
AWS云上混沌工程实践之启动篇
本文是整个 AWS 云上混沌工程实践系列的首篇。从工程师团队的维护痛点出发,由浅入深介绍了混沌工程的基本概念、主要解决的问题、最终的目标,对混沌工程实践的突出困惑做了分析和解答,并以混沌工程的发展时间线为例,详述了混沌工程不是一蹴而就, 社区对混沌工程的理解不断深入:从最初对基础设施的扰动实验(Chaos Monkey),发展出整套猴子军团Simian Army,为控制实验的爆炸半径提出故障注入测试(FIT),再到精细化流量配比以区分影响,直至引入断路器实现真正的无人值守。