Pourquoi mon alarme CloudWatch s'est-elle déclenchée lorsque sa métrique ne présentait aucun point de données dépassant le seuil défini ?

Dernière mise à jour : 23/03/2021

L'état de mon alarme Amazon CloudWatch est à ALARME. Lorsque je vérifie la métrique de l'alarme, je ne vois pas de point de données dépassant le seuil autorisé. Toutefois, l'historique des événements pour le seuil d'alarme indique qu'un point de données dépasse le seuil autorisé. Pourquoi mon alarme CloudWatch s'est-elle déclenchée lorsque sa métrique ne présentait aucun point de données dépassant le seuil défini ?

Brève description

Les alarmes CloudWatch évaluent les métriques en fonction des points de données disponibles à un moment donné. Chaque évaluation d'alarme subséquente peut utiliser différents points de données agrégées, car de nouvelles valeurs continuent d'être acheminés dans la métrique CloudWatch. Il est possible que vous soyez dans l'incapacité de voir le point de données qui a dépassé le seuil autorisé et qui a déclenché votre alarme si ces données n'ont pas encore été acheminées dans la métrique. Lorsque vous consulterez ultérieurement l'historique des événements, vous pourrez voir l'ensemble complet des points de données, qui auront alors été acheminés dans la métrique.

Solution

Trouver un point de données qui a dépassé le seuil autorisé

Pour trouver un point de données qui a dépassé le seuil autorisé dans le graphique de la métrique de votre alarme CloudWatch, modifiez la métrique Statistique sur Maximum/Minimum.

Exemple de configuration d'alarme :

  • Alarme de résolution standard (évalue la métrique toutes les minutes)
  • Metric (Métrique) est défini sur CPUUtilization
  • Threshold (Seuil) est défini sur 65%
  • Statistic (Statistique) est défini sur Average (Moyen)
  • Period est défini sur 60 seconds
  • Evaluation Period (Période d'évaluation) est défini sur 1
  • Detailed Monitoring (Surveillance détaillée) est défini sur enabled (activé[e]) pour l'instance Amazon Elastic Compute Cloud (Amazon EC2) surveillée

Lorsque la période d'évaluation d'alarme de l'exemple 12:00:00 - 12:01:00 UTC démarre, les valeurs suivantes ont été reçues par la mesure :

Sample-1: 12:00:07 UTC, numeric value: 89.76470588235294
Sample-2: 12:00:11 UTC, numeric value: 27.926666666666664
Sample-3: 12:00:19 UTC, numeric value: 54.57142857142857
Sample-4: 12:00:35 UTC, numeric value: 95.473333333333336

La moyenne de ces valeurs est de 66,934, ce qui dépasse le seuil de 65 %. Cela déclenche une modification de l'état qui passe alors à ALARM (ALARME). L'historique des événements de l'alarme répertorie l'ensemble des valeurs agrégées dépassant le seuil en tant que motif du changement de l'état.

Lorsque l'alarme est réévaluée ultérieurement, d'autres valeurs ont afflué pour la minute 12:00:00 - 12:01:00 UTC. Par exemple :

Sample-1: 12:00:07 UTC, numeric value: 89.76470588235294
Sample-2: 12:00:11 UTC, numeric value: 27.926666666666664
Sample-3: 12:00:19 UTC, numeric value: 54.57142857142857
Sample-4: 12:00:35 UTC, numeric value: 95.473333333333336
Sample-5: 12:00:37 UTC, numeric value: 15.18181818181819
Sample-6: 12:00:41 UTC, numeric value: 10.26490

La moyenne incluant les nouvelles valeurs est de 48,864, ce qui ne dépasse pas le seuil de 65 %. L'alarme passe à l'état OK. L'historique des événements de l'alarme répertorie l'ensemble des valeurs agrégées se situant en dessous du seuil en tant que motif du changement de l'état.

Vous ne verrez peut-être pas le point de données dépassant le seuil de métrique CloudWatch dans votre graphique à ce moment-là, même si l'alarme a été déclenchée. Si vous consultez le graphique de la métrique CPUUtilization, la valeur Average (Moyenne) affiche 48,864 (et non 66,934). Tous les échantillons pertinents pour l'évaluation sont maintenant entrés dans la métrique.

Si vous modifiez la valeur Statistic du graphique de la métrique CloudWatch sur Maximum, vous pouvez voir le point de données dépassant le seuil autorisé 95,473 à 12:00:00 UTC.

Remarque : si votre alarme est configurée pour se déclencher lorsque les données tombent en dessous du seuil, modifiez la valeur du graphique de la métrique CloudWatch Statistic en Minimum.

Configurer une alarme « M hors N »

Pour éviter qu'une alarme ne passe à l'état ALARM (ALARME), configurez une alarme « M sur N », où Evaluation Period (Période d'évaluation) et Datapoints to Alarm (Points de données pour l'alarme) ont des valeurs différentes. Cette configuration permet aux alarmes d'évaluer un plus grand nombre de points de données agrégées et modifie l'état de l'alarme uniquement si un certain nombre de points de données (M) minimum dépasse le seuil dans un ensemble de points de données (N) donné. Pour plus d'informations, consultez la section Création d'une alarme CloudWatch basée sur un seuil statique et Configuration de la manière dont les alarmes CloudWatch traitent les données manquantes.

Exemple de configuration d'alarme :

  • Alarme de résolution standard (évalue la métrique toutes les minutes)
  • Metric (Métrique) est défini sur CPUUtilization
  • Threshold (Seuil) est défini sur 65%
  • Statistic (Statistique) est défini sur Average (Moyen)
  • Period est défini sur 120 secondes
  • Evaluation Period (Période d'évaluation) est défini sur 2 out of 3 (2 sur 3)
  • Detailed Monitoring (Surveillance détaillée) est défini sur enabled (activé[e]) pour l'instance Amazon EC2 surveillée

Notez que la configuration de l'alarme de l'exemple est similaire à l'exemple précédent. Toutefois, la période d'évaluation vérifie 2 des 3 points de données disponibles avant de déclencher l'alarme. La période est également réduite en raison de l'augmentation de la période d'évaluation.

Lorsque la période d'alarme commence à 12:00:00 UTC, les valeurs suivantes ont été reçues par la métrique :

Sample-1: 12:00:07 UTC, numeric value: 89.76470588235294
Sample-2: 12:00:11 UTC, numeric value: 27.926666666666664
Sample-3: 12:00:19 UTC, numeric value: 54.57142857142857
Sample-4: 12:00:35 UTC, numeric value: 95.473333333333336

CloudWatch recherche les points de données qui sont antérieurs à 12:00:00 UTC en raison de l'augmentation de la période d'évaluation :

11:58:00 UTC, Average=41.874304539920
11:59:00 UTC, Average=5.230773650991253
12:00:00 UTC, Average=66.93403361344538

Le point de données agrégées à 12:00:00 UTC dépasse le seuil. Toutefois, l'alarme reste à l'état OK et ne passe pas à l'état ALARM (ALARME). Ce comportement se produit parce qu'un seul point de données sur trois franchissent le seuil, alors qu'un sur trois est nécessaire pour déclencher l'alarme.


Cet article vous a-t-il été utile ?


Besoin d'aide pour une question technique ou de facturation ?