我的 Amazon CloudWatch 警报变为了警报状态。但在我检查警报指标时,并没有看到任何超出阈值的数据点。而该警报的事件历史记录显示有超出阈值的数据点。

CloudWatch 警报根据在特定时刻的可用数据点来评估指标。由于新数据点不断流入 CloudWatch 指标,每次后续评估警报时,可能会使用不同的聚合数据点。如果触发警报的数据尚未流入指标,则您可能无法看到该超出阈值的数据点。而在您以后查看事件历史记录时,您可能会看到已经流入指标的完整数据点集。

如要观察 CloudWatch 警报指标图中超出阈值的数据点,请将统计数据参数修改为 最大值/最小值

为帮助防止警报的状态变为“警报”,请配置一条“M out of N”警报,其中 Evaluation Period(评估期)Datapoints to Alarm(触发警报的数据点数)设为不同的值。此配置将让警报评估更多的聚合数据点,仅在给定的数据点集 (N) 中至少有一定数量 (M) 的数据点超出阈值时改变警报的状态。有关更多信息,请参阅根据 CloudWatch 指标创建 CloudWatch 警报配置 CloudWatch 警报处理缺失数据的方式

示例:如何观察超出阈值的数据点

示例警报配置:

  • 标准精度警报(每分钟评估一次指标)
  • 指标设置为 CPUUtilization
  • 阈值设置为 65%
  • 统计数据设置为平均值
  • 周期设置为 60 秒
  • 评估期设置为 1
  • 为所监控的 Amazon Elastic Compute Cloud (Amazon EC2) 实例启用详细监控

当示例警报评估期 12:00:00 – 12:01:00 UTC 开始时,下列数据点可用于该指标:

Sample-1: 12:00:07 UTC, data-point: 89.76470588235294
Sample-2: 12:00:11 UTC, data-point: 27.926666666666664
Sample-3: 12:00:19 UTC, data-point: 54.57142857142857
Sample-4: 12:00:35 UTC, data-point: 95.473333333333336

这些数据点的平均值为 66.934,超出了 65% 的阈值。这将触发将警报状态更改为“警报”。该警报的事件历史记录会将聚合数据点超出阈值列为更改状态的原因。

以后再次评估警报时,12:00:00 – 12:01:00 UTC 这一分钟将会有额外的数据点流入。例如:

Sample-1: 12:00:07 UTC, data-point: 89.76470588235294
Sample-2: 12:00:11 UTC, data-point: 27.926666666666664
Sample-3: 12:00:19 UTC, data-point: 54.57142857142857
Sample-4: 12:00:35 UTC, data-point: 95.473333333333336
Sample-5: 12:00:37 UTC, data-point: 15.18181818181819
Sample-6: 12:00:41 UTC, data-point: 10.26490

新数据点的平均值为 48.864,并未超出 65% 的阈值。现在,警报状态将变为“正常”。该警报的事件历史记录会将聚合数据点低于阈值列为更改状态的原因。

现在您可能不会在 CloudWatch 的指标图中看到超出阈值的指标,尽管触发了警报。如果您查看 CPUUtilization 指标的图表,显示的平均值将为 48.864(而不是 66.934)。这是因为,评估所需的所有相关的数据点现在都已流入指标。

如果您将 CloudWatch 指标图的统计数据参数更改为最大值,则现在可以看到 12:00:00 UTC 时有一个数据点超出阈值,为 95.473。

注意:如果您将警报配置为在数据低于阈值时触发,则应将 CloudWatch 指标图的统计数据参数更改为最小值

示例:如何配置“M out of N”警报

示例警报配置:

  • 标准精度警报(每分钟评估一次指标)
  • 指标设置为 CPUUtilization
  • 阈值设置为 65%
  • 统计数据设置为平均值
  • 周期设置为 120 秒
  • 评估期设置为 2 out of 3
  • 为所监控的 EC2 实例启用详细监控

请注意,示例警报配置与第一个示例类似。但在评估期内会对 3 个可用数据点中的 2 个进行检查后才会触发警报。评估期加长会导致周期减少。

警报期从 12:00:00 UTC 开始时,下列数据点将可供 CloudWatch 指标使用:

Sample-1: 12:00:07 UTC, data-point: 89.76470588235294
Sample-2: 12:00:11 UTC, data-point: 27.926666666666664
Sample-3: 12:00:19 UTC, data-point: 54.57142857142857
Sample-4: 12:00:35 UTC, data-point: 95.473333333333336

由于评估期加长,CloudWatch 会查找早于 12:00:00 UTC 的数据点:

11:58:00 UTC, Average=41.874304539920
11:59:00 UTC, Average=5.230773650991253
12:00:00 UTC, Average=66.93403361344538

在 12:00:00 UTC 的聚合数据点超出了阈值。但警报的状态依然为“正常”,不会变为“警报”。这是因为在 3 个数据点中只有 1 个超出阈值,而触发警报需要 3 个中的 2 个超出阈值。


此页面对您有帮助吗? |

返回 AWS Support 知识中心

需要帮助? 请访问 AWS 支持中心

发布时间:2019 年 3 月 5 日