Comment être sûr que les alarmes CloudWatch activent des actions ?

Dernière mise à jour : 10/06/2022

Mon alarme Amazon CloudWatch n'est pas activée, même si je constate que la métrique de l'alarme dépasse le seuil configuré sur mes graphiques CloudWatch. Comment être sûr que mes alarmes CloudWatch sont activées et que les actions associées sont exécutées ?

Brève description

Les alarmes CloudWatch qui mesurent les métriques de temps cumulé (telles que les moyennes de 5 minutes) le font continuellement, à la manière d'une « fenêtre dynamique » Si tous les points de données collectés pendant la période d'évaluation ne dépassent pas le seuil configuré, l'alarme CloudWatch n'est pas activée.

Les alarmes CloudWatch se déclenchent lorsque leur état change et est maintenu pendant un certain nombre de périodes. Pour plus d'informations, consultez Création d'alarmes CloudWatch.

Important : il existe une exception à ce comportement qui concerne les alarmes CloudWatch associées aux actions Amazon EC2 Auto Scaling. Une alarme CloudWatch continue d'activer les actions Auto Scaling lorsqu'elle se trouve dans un certain état. Cela se produit même s'il n'y a pas de changement d'état et que l'alarme reste dans cet état.

Solution

Assurez-vous de prendre en compte le mécanisme utilisé par CloudWatch pour mesurer les métriques de temps cumulé lorsque vous créez des alarmes.

Envisagez d'abaisser les seuils de données des métriques pour être sûr que l'alarme fonctionne comme prévu.

Exemple de dépannage

Dans cet exemple, il existe une alarme basée sur l'utilisation moyenne du CPU. L'alarme est configurée avec un seuil > 45. Elle fonctionne pendant au moins trois périodes consécutives de cinq minutes. La période d'évaluation est de trois et une période de 300 secondes pour les métriques de temps cumulé suivantes :

  • 05:25:00: data: {Avg=61.123}
  • 05:30:00: data: {Avg=57.847}
  • 05:35:00: data: {Avg=60.503}
  • 05:40:00: data: {Avg=55.473}
  • 05:45:00: data: {Avg=41.685}
  • 05:50:00: data: {Avg=58.390}
  • 05:55:00: data: {Avg=57.846}
  • 06:00:00: data: {Avg=61.123}

Ces points de données génèrent les états d'alarme suivants :

  • 05:35 ALARM
  • 05:40 ALARM
  • 05:45 ALARM to OK
  • 05:50 OK
  • 05:55 OK
  • 06:00 OK to ALARM

Le point de données collecté à 05:55 dépasse le seuil de 45 % d'utilisation moyenne de l'UC. Cependant, l'alarme reste à l'état OK et n'active pas l'action à 05:55. Cela provient du fait que le point de données collecté à 05:45:00 , qui ne dépasse pas ce seuil, est inclus dans l'évaluation faite à 05:55. Toutefois, l'alarme lance l'action cinq minutes plus tard, car l'état de l'alarme passe de OK à ALARM à 06:00.

Pour les métriques de temps cumulé suivantes, l'état de l'alarme est ALARM après 05:35 car tous les points de données dépassent le seuil de 45 % d'utilisation moyenne du CPU. Aucun changement d'état ne se produisant, l'action de l'alarme n'est pas activée.

  • 05:25:00: data: {Avg=61.123}
  • 05:30:00: data: {Avg=57.847}
  • 05:35:00: data: {Avg=60.503}
  • 05:40:00: data: {Avg=55.473}
  • 05:45:00: data: {Avg=45.075}
  • 05:50:00: data: {Avg=58.390}
  • 05:55:00: data: {Avg=57.847}
  • 06:00:00: data: {Avg=61.123}

Cet article vous a-t-il été utile ?


Avez-vous besoin d'aide pour une question technique ou de facturation ?