亚马逊AWS官方博客

CloudWatch 警报和 OpsCenter 的全新集成

一年多前,我写了一篇关于称为 OpsCenter 的功能在 AWS Systems Manager 中启动的文章,该功能允许客户将问题、事件和警报聚合到一个位置,使运营工程师和 IT 专业人员能够更加轻松地调查和补救问题。今天,我要高兴地向大家宣布这项功能与 Amazon CloudWatch 警报进行了全新集成。

CloudWatch 警报进入警报状态时,您可以在 Systems Manager OpsCenter 内自动创建运营工作项 (OpsItem)。

例如,您可以将警报配置为在 EC2 实例的 CPU 利用率大于 75% 时自动创建 OpsItem。该项目将包括工程师解决问题所需的所有信息,为您的团队提供所需的工具,以提高工作效率并加快问题调查。

您还可以将多个指标警报组合在一起;例如,您可以创建一个复合警报,该警报仅在两个 CPU 利用率都大于 75% 且负载均衡器延迟超过 100ms 时才会触发。通过这种方式,您可以忽略 CPU 利用率增加但负载均衡器仍有响应的实例。

为了向您展示这种新集成的工作原理,我将创建一个警报,在警报响起时触发 OpsItem 的创建。首先,我会转至 CloudWatch 警报控制台。

响起警报
我通过点击控制台中的 Create alarm(创建警报)按钮创建一个新警报。

我点击 Select metric(选择指标)按钮,因此可以选择 CloudWatch 的指标进行监控。

我选择要进行监控的实例和称为 CPUUtilization 的指标,然后点击 Select metric(选择指标)按钮。

Specify metric and conditions(指定指标和条件)屏幕中,我选择 Static(静态)阈值类型并配置事物,以便在 CPUUtilization 超过 75 时,状态会变为 Alarm(警报)。

创建 OpsItem
现在,我将配置警报的操作。我点击通知部分中的 Remove(删除)按钮;这将删除默认操作。然后,我向下滚动到 Systems Manager OpsCenter action(Systems Manager OpsCenter 操作)部分,然后按下称为 Add Systems Manager OpsCenter action(添加 Systems Manager OpsCenter 操作)的按钮。

我将 OpsItem 的严重程度选为 Medium(中等)。即使该类别是可选的,我仍然选择 Performance(性能)。您可能已经注意到,与通知不同的是,集成只会在警报处于警报状态时触发;您不能为 OkInsufficient 条件创建 OpsItem。点击 Next(下一步)创建操作。

最后,我给为此警报提供一个名称和描述。

在下一个屏幕中,我会查看所有的警报设置。我对我所设置的内容感到满意,所以我点击 Create(创建)按钮。

警报现在处于活动状态,系统正在监控所选指标。

在此演示中,我在我的 EC2 实例上运行 CPU 压力测试;我希望最大化 CPU 并触发我新创建的警报。

几分钟后,我检查了 CloudWatch 警报控制台并确认我的警报现在处于警报状态。

查看 OpsItem
新的集成将触发 OpsItem 的创建,所以当我转到 Systems Manager OpsCenter 控制台时,我看到一个新创建的 OpsItem。

深入了解 OpsItem 后,我看到了详细信息。我可以查看有关警报触发时的 CPU 使用率的信息,建议的用于解决问题的 Runbook 以及相关资源。

解决问题所需的所有重要信息都在 OpsItem 中,举例来说,如果我在 Related resources(相关资源)部分中点击警报的 Resource ARN(资源 ARN),我将在不离开 OpsCenter 的情况下看到相关的警报信息,包括 CPUUtilization 的图。

 

同样,如果我点击 EC2 实例的 Resource ARN(资源 ARN),则会在不离开 OpsCenter 的情况下向我显示有关该资源的相关信息。

在 Runbook 部分中,我发现了一个可以自动解决问题的建议 Runbook 列表。在现实世界中,我可能有一些自定义 Runbook 来解决系统中的常见问题,但我还是将通过直接从 OpsItem 运行 AWS-RestartEC2Instance Runbook 来执行这种古老的 IT 技巧,即关闭并重新打开它。

希望此演示已经证明,这种新的集成可以通过确保问题被迅速提出且关键的调查数据可以在一个地方获得,从而提高工程师的工作效率。

知道这个很有用

Systems Manager OpsCenter 操作与现有的通知并行运行。因此,您不必选择一个或另一个,您可以继续通过 SNS 发送通知,例如允许您继续使用现有的支持机制。

OpsCenter 将消除警报事件的重复数据。这样可以避免出现“摆动问题”,即警报进出报警状态可能会产生多个 OpsItem。

现已推出
AWS Systems Manager OpsCenter 与 Amazon CloudWatch 警报之间的这种新集成已在提供 Systems Manager 的所有区域推出。要开始使用,请转至 AWS 管理控制台的 CloudWatch 警报部分,并附加您的第一个 Systems Manager OpsCenter 操作,您还可以查看文档以了解有关集成工作原理的更多具体详情。

祝警报顺利

— Martin