AWS 韧性监测中心

帮助应用程序准备妥当并保护其免于中断

AWS Resilience Hub 的优势

持续验证和跟踪应用程序弹性,以减少停机
评估弹性目标(恢复时间目标和恢复点目标)。
在生产中出现问题之前识别并解决问题。
优化业务连续性,同时降低恢复成本。

工作原理

AWS 韧性监测中心是 AWS 管理控制台上用于管理和改善 AWS 应用程序韧性状况的中心位置。AWS 韧性监测中心使您能够定义韧性目标、根据这些目标评测韧性状况,并根据 AWS Well-Architected Framework 实施改进建议。在 AWS 韧性监测中心,您还可以创建并运行 AWS 故障注入服务(AWS FIS)实验,该实验模拟现实生活中对应用程序的干扰,帮助您更好地了解依赖关系并发现潜在的弱点。

AWS 韧性监测中心在一个位置为您提供持续增强韧性状况所需的服务和工具。

功能

将您的应用程序描述为资源集合,例如 CloudFormation 堆栈、Terraform 状态文件、AppRegistry 应用程序或资源组,或者为托管在 Amazon EKS 上的 Kubernetes 工作负载定义应用程序。此外,也可以使用资源集合和 Amazon EKS 集群来描述应用程序。
定义应用程序的弹性策略。这些策略包括应用程序、基础设施、可用区和区域中断的 RTO 和 RPO 目标。

AWS Resilience Hub 的评估使用 AWS Well-Architected Framework 中的最佳实践来分析应用程序的组件,并发现潜在的弹性弱点。这些弱点可能是由不完整的基础设施设置、错误配置或需要额外配置改进的情况造成的。

AWS Resilience Hub 为提高弹性提供可行的建议。弹性评估还会生成代码片段,帮助您为应用程序创建作为 AWS Systems Manager 文档的恢复程序,称为标准操作规程(SOP)。AWS Resilience Hub 会生成一个推荐的 Amazon CloudWatch 监控器和警报列表,以帮助操作员快速识别部署后应用程序弹性状态的任何变化。

在更新应用程序和 SOP 以纳入弹性评估的建议后,您可以使用 AWS Resilience Hub 来测试并验证您的应用程序是否能够满足其弹性目标,然后再将其发布到生产环境中。AWS Resilience Hub 与 AWS Fault Injection Simulator(FIS)集成,这是一项混沌工程服务,提供真实故障的故障注入模拟,以验证应用程序是否能够在定义的弹性目标内恢复。可能包括网络错误或打开的数据库连接太多。AWS Resilience Hub 还提供 API,因此您可以将其弹性评估和测试集成到您的 CI/CD 管道中,以进行持续的弹性验证。将弹性验证集成到 CI/CD 管道中有助于确保对应用程序底层基础设施的更改不会损害弹性。

使用案例

使用真实故障的故障注入模拟来帮助验证恢复标准操作规程(SOP)和告警的有效性。

提供可行的建议来提高弹性,并帮助您创建恢复程序。

在计划内和计划外停机期间保留事件的审计跟踪记录,有助于满足合规性和法规要求。

客户

Pearson 徽标

“借助 AWS 韧性监测中心,我们可以了解我们的应用程序在做什么……然后问问自己‘这是关键任务应用程序吗?它是否可以宕机一段时间而不影响我们的运营?’ AWS 韧性监测中心对此至关重要,因为我们能够输入值并非常快速地了解哪些应用程序实际上对 Pearson 很重要。”


-Ronnie Kendrick,Pearson 基础设施和运营高级 SRE 经理

Pearson 利用 AWS 韧性监测中心来提高应用程序韧性

“ADL 数字实验室(ADL)诞生于 2017 年,如今,它已成为拉丁美洲金融服务业数字产品推广的最佳平台之一。在认识到向客户提供高度可靠的解决方案的重要性后,ADL 整合了 AWS 韧性监测中心,以验证和跟踪其应用程序的弹性状态,同时保持对策略合规性和可用性目标的可见性。通过将 AWS 韧性监测中心集成到 ADL 的业务连续性框架,我们验证了 8 个交易渠道的弹性和业务连续性状况,为哥伦比亚四个主要金融实体的约 400 万客户提供服务。”— Aval 数字实验室架构主管 Alexander Chaparro


更深入了解 AWS