持续验证和跟踪应用程序弹性,以减少停机。
评估弹性目标(恢复时间目标和恢复点目标)。
在生产中出现问题之前识别并解决问题。
优化业务连续性,同时降低恢复成本。
功能
描述
使用 AWS CloudFormation 描述您的应用程序,包括跨区域和跨账户堆栈。还可以使用 Resource Groups 定义应用程序,或者从 Service Catalog AppRegistry 中已经定义的应用程序中进行选择。
定义
定义应用程序的弹性策略。这些策略包括应用程序、基础设施、可用区和区域中断的 RTO 和 RPO 目标。
评估
AWS Resilience Hub 的评估使用 AWS Well-Architected Framework 中的最佳实践来分析应用程序的组件,并发现潜在的弹性弱点。这些弱点可能是由不完整的基础设施设置、错误配置或需要额外配置改进的情况造成的。
建议
AWS Resilience Hub 为提高弹性提供可行的建议。弹性评估还会生成代码片段,帮助您为应用程序创建作为 AWS Systems Manager 文档的恢复程序,称为标准操作规程(SOP)。AWS Resilience Hub 会生成一个推荐的 Amazon CloudWatch 监控器和告警列表,以帮助操作员快速识别部署后应用程序弹性状态的任何变化。
验证
在更新应用程序和 SOP 以纳入弹性评估的建议后,您可以使用 AWS Resilience Hub 来测试并验证您的应用程序是否能够满足其弹性目标,然后再将其发布到生产环境中。AWS Resilience Hub 与 AWS Fault Injection Simulator(FIS)集成,这是一项混沌工程服务,提供真实故障的故障注入模拟,以验证应用程序是否能够在定义的弹性目标内恢复。可能包括网络错误或打开的数据库连接太多。AWS Resilience Hub 还提供 API,因此您可以将其弹性评估和测试集成到您的 CI/CD 管道中,以进行持续的弹性验证。将弹性验证集成到 CI/CD 管道中有助于确保对应用程序底层基础设施的更改不会损害弹性。
查看和跟踪
AWS Resilience Hub 通过其控制面板提供对整个应用程序组合的弹性状态的全面视图。为了帮助您跟踪应用程序的弹性状态,AWS Resilience Hub 从 Amazon CloudWatch 和 AWS Fault Injection Simulator 之类的服务中聚合并组织弹性事件(例如,不可用的数据库或失败的弹性验证)、提示和洞察。AWS Resilience Hub 还会生成弹性评分,该评分指示建议的弹性测试、告警和恢复 SOP 的实施级别。此评分可用于衡量弹性随着时间的改进。
使用案例
发现潜在的弱点
使用真实故障的故障注入模拟来帮助验证恢复标准操作规程(SOP)和告警的有效性。
保护任务关键型应用程序
提供可行的建议来提高弹性,并帮助您创建恢复程序。
帮助满足合同和法规要求
在计划内和计划外停机期间保留事件的审计跟踪记录,有助于满足合规性和法规要求。