亚马逊AWS官方博客

推出新一代 AWS 韧性监测中心,助力基于生成式人工智能的 SRE 韧性之旅

今天,我们宣布推出下一代 AWS 韧性监测中心,其体验得到了显著扩展,整合了新的应用程序模型、依赖项发现评测、由生成式人工智能驱动的失效模式分析、模块化韧性策略以及组织级报告。

运行数百个应用程序的组织面临着一个共同的挑战:可用性是首要关注点,但目前缺乏一致的方法来设置韧性目标、衡量进展或证明整个应用组合的合规性。各个团队设定了不同的标准,使用不同的工具,并且在交流应用程序是否真正达到预期这一信息时困难重重。

下一代 AWS 韧性监测中心通过为站点可靠性工程师(SRE)和开发团队提供结构化的方式,改变了这一现状:帮助他们在韧性策略期望方面达成一致,协助应用程序团队实现这些期望,并通过测试来展示合规性。通过集成到 AWS Organizations,团队现在可以大规模评估韧性,识别失效模式,发现隐藏的依赖项,并报告整个企业的进展。

下一代韧性监测中心将引导您完成您的韧性之旅,并为此内置了以下概念来为您提供帮助。

  • 韧性策略:您可以通过模块化、可组合的需求来定义您的韧性期望。您无需选择单一的、僵化的策略类型,而是通过选择对您应用程序重要的需求来构建策略,例如服务等级目标(SLO)、跨可用区和跨区域灾难恢复以及数据恢复需求。
  • 业务层面理解:您可以通过直接映射到业务成果的关键最终用户路径,来使用新的应用程序建模。 系统代表业务应用程序,用户旅程描述关键的业务路径,而服务则是由 AWS 资源、代码和可观测性组成的可部署单元。韧性监测中心会自动发现它们并将其映射到显示资源连接方式的拓扑结构中。
  • 人工智能失效模式评测:您可以运行基于生成式人工智能的评测,根据您定义的韧性策略、AWS Well-Architected 最佳实践和 AWS 韧性分析框架分析您的服务。这些评测可识别潜在的失效模式并提供切实可行的建议。
  • 依赖项发现评测:您可以自动发现您的服务所依赖的 AWS 服务、内部端点和第三方端点。此依赖项评测使用 DNS 查询日志分析来识别您可能不知道的依赖项,包括意外的跨区域调用或重要的第三方依赖项。

下一代 AWS 韧性监测中心实际应用
首先,您需要配置韧性策略,设置第一个系统和服务,进行失效模式评测,审查结果并实施调查发现。

在开始之前,您应该设置调用者 IAM 角色,该角色授予韧性监测中心对您的 AWS 资源、跨账户角色(如果不使用 AWS Organizations)或服务相关角色(SLR,如果使用 AWS Organizations)的只读访问权限。 韧性监测中心还与 AWS Organizations 集成,通过单个委派管理员账户实现组织范围的韧性管理。这样就无需登录个人账户来评测整个企业的韧性状况。要了解更多信息,请访问《AWS 韧性监测中心用户指南》中的有关先决条件的详细信息

要配置韧性策略,请通过 AWS 韧性监测中心控制台,在策略菜单中选择创建策略。输入策略名称、描述,然后选择韧性要求。例如,您可以创建一个用于金融应用程序中多区域灾难恢复的可复用策略,包括 99.95% 的可用性 SLO、15 分钟的 RTO、5 分钟的 RPO(针对多区域灾难恢复),以及符合您 RTO 和 RPO 要求的灾难恢复方法。

如果您选择了数据恢复需求,则可以为与此策略关联的每个服务定义从备份中恢复的数据恢复时间目标。

要创建代表您的业务应用程序的第一个系统,请在系统菜单中选择创建系统。或者,您可以为该系统启用 AWS Organizations 账户访问权限。

现在,您可以创建代表可部署单位的服务,例如您的一个微服务,并将其与系统关联,并告诉韧性监测中心可以在哪里找到您的资源。输入服务名称,例如 stock-exchange-service,选择您的韧性策略和调用者 AWS IAM 角色名称。您可以选择服务区域、服务资源,例如资源标签、AWS CloudFormation 堆栈、Terraform 状态文件位置或 Amazon EKS 集群和命名空间。

当您为此服务启用依赖项发现时,AWS 会检查您的 VPC 查询日志,寻找与您的服务中的资源关联的 VPC。您可以随时从服务详细信息页面的依赖项发现设置中禁用此功能。

现在,您可以在服务创建完成并应用策略后,进行第一次评测。在服务页面中选择运行失效模式评测,然后等待评测完成。

在评测期间,韧性监测中心会代入您的调用者角色,从您配置的输入源读取资源,识别父子关系,查询应用程序拓扑服务以映射资源之间的连接,并构建显示数据流、包含关系和权限的拓扑。

通过选择服务拓扑,您可以查看按服务功能分组的图形、表格或 JSON 格式服务资源。

通过选择失效模式指引,您可以添加断言来指引代理执行失效模式评测。 断言要么由代理生成,要么由用户添加。您可以对其进行更新以提高评测准确性。

评测完成后,您可以在服务页面的评测选项卡中查看调查发现和建议。 每项调查发现都会表明失效模式是什么,为什么对架构很重要,如何修复,以及它与哪个策略要求有关。

您可以选择标记为已解决以实施建议,或者,如果调查发现不适用于您的使用案例,则可以选择标记为不相关

如果您是韧性监测中心的现有客户,韧性监测中心可提供迁移 API,以简化先前应用程序的过渡。这些 API 可将您先前的评测策略转换为新的韧性策略,将您先前的应用程序映射到新模型,例如将多个相关应用程序映射到具有多项服务的单个系统。

有关新功能的更多信息,请访问 AWS 韧性监测中心用户指南

现已推出
下一代 AWS 韧性监测中心现已在支持韧性监测中心的 AWS 商业区域正式推出。有关区域可用性和未来路线图,请访问按区域列出的 AWS 功能

韧性监测中心使用基于服务的新定价模型。定价包括每月两次服务失效模式评测,以及可选的自动依赖项评测。您可以免费试用 AWS 韧性监测中心。有关定价的详细信息,请访问 AWS 韧性监测中心定价页面

韧性监测中心控制台中试用新的 AWS 韧性监测中心,并向韧性监测中心 AWS re:Post 发送反馈,或通过您常用的 AWS Support 联系人发送反馈。

Channy