Perché il mio allarme CloudWatch si è attivato se la metrica non indica alcuna violazione dei punti dati?

5 minuti di lettura
0

Il mio allarme Amazon CloudWatch è passato allo stato ALARM. Quando controllo la metrica che viene monitorata, il grafico di CloudWatch non mostra alcuna violazione dei punti dati. Tuttavia, la cronologia degli allarmi contiene una voce relativa a una violazione dei punti dati. Perché il mio allarme CloudWatch si è attivato?

Breve descrizione

Gli allarmi CloudWatch valutano le metriche in base ai punti dati disponibili in un determinato momento. La cronologia degli allarmi registra i punti dati che l'allarme ha valutato in quel timestamp. Tuttavia, è possibile pubblicare nuovi esempi dopo la valutazione dell'allarme. Questi nuovi esempi potrebbero influire sul valore calcolato quando CloudWatch aggrega i dati delle metriche.

Soluzione

Trovare i datapoint violati

Se il grafico di CloudWatch non mostra alcun datapoint violato, tali datapoint si sono verificati al di fuori del tempo di valutazione dell'allarme. Per capire come avviene, fai riferimento all'esempio seguente.

In questo esempio, è disponibile un numero X di campioni quando si verifica una valutazione di allarme, con un valore aggregato di A. Successivamente, vengono pubblicati nuovi campioni, con il risultato del numero Y di campioni recuperati per lo stesso timestamp. Ciò si traduce in un diverso valore aggregato di B.

In questo contesto, viene configurato un allarme con i seguenti parametri:

  • Spazio dei nomi: Web_App
  • Metrica: ResponseTime
  • Dimension: host,h_04254448d4e964956
  • Statistica: Average
  • Soglia: 0,005
  • ComparisonOperator: GreaterThanThreshold
  • **Periodo: 60 secondi (1 minuto) **
  • Periodo di valutazione: 1

Quando l'allarme valuta il periodo dalle 12:00:00 alle 12:01:00 UTC, la metrica recupera i seguenti valori:

Sample-1: 12:00:00 UTC, numeric value: 0.00675
Sample-2: 12:00:00 UTC, numeric value: 0.00789
Sample-3: 12:00:00 UTC, numeric value: 0.00421

La media di questi valori è 0,006283333, che supera la soglia di 0,005 secondi. Pertanto, l'allarme passa allo stato ALARM. La cronologia degli allarmi registra i valori aggregati che superano la soglia.

L'host potrebbe riscontrare temporaneamente un problema di prestazioni, che ha un impatto sull'applicazione client responsabile della pubblicazione delle metriche. Di conseguenza, l'host potrebbe non pubblicare datapoint a intervalli equidistanti. In questo contesto, i campioni per le 12:00 sono stati pubblicati dopo la valutazione dell'allarme. Di seguito sono riportati tutti gli esempi relativi al timestamp delle 12:00:

Sample-1: 12:00:00 UTC, numeric value: 0.00675
Sample-2: 12:00:00 UTC, numeric value: 0.00789
Sample-3: 12:00:00 UTC, numeric value: 0.00421
Sample-4: 12:00:00 UTC, numeric value: 0.00002
Sample-5: 12:00:00 UTC, numeric value: 0.00007

Dopo aver ricevuto un avviso da questo allarme, l'utente esegue il rendering di un grafico di CloudWatch per esaminare il comportamento delle metriche. CloudWatch recupera i cinque campioni dalle 12:00:00 alle 12:01:00 UTC e li aggrega con una media di 0,003788. Questo valore è diverso dal valore calcolato in precedenza ed è inferiore alla soglia. Pertanto, i datapoint violati non sono visibili nell'intervallo di tempo perché sono stati pubblicati campioni aggiuntivi dopo la valutazione dell'allarme.

Aumentare l'intervallo di valutazione degli allarmi

L'intervallo di valutazione di un allarme è il numero di datapoint moltiplicato per il periodo. La configurazione di Datapoint su Alarm può comportare un intervallo di valutazione più lungo. Quando un allarme genera avvisi falsi a causa di metriche in differita, l'aumento dell'intervallo di valutazione consente di considerare i datapoint in differita nella valutazione dell'allarme. Questo riduce il numero di avvisi falsi.

L'intervallo di valutazione può essere aumentato in due modi:

1.    Aumentando il periodo. Nell'esempio seguente, il periodo viene aumentato a cinque minuti:

  • Spazio dei nomi: Web_App
  • Metrica: ResponseTime
  • Dimension: host,h_04254448d4e964956
  • Statistica: Average
  • Soglia: 0,005
  • ComparisonOperator: GreaterThanThreshold
  • Periodo: 300 secondi (5 minuti)
  • Periodo di valutazione: 1

-oppure-

2.    Configurando i Datapoint su Alarm in "M out of N".

Nell'esempio seguente, i datapoint M su N sono configurati su due su tre.

  • Spazio dei nomi: Web_App
  • Metrica: ResponseTime
  • Dimension: host,h_04254448d4e964956
  • Statistica: Average
  • Soglia: 0,005
  • ComparisonOperator: GreaterThanThreshold
  • **Periodo: 60 secondi (1 minuto) **
  • Periodo di valutazione (N): 3
  • Datapoint su Alarm (M): 2

Quando configuri Periodi di valutazione e Datapoints su Alarm come valori diversi, imposti un allarme "M su N". I Datapoint su Alarm sono M e il periodo di valutazione è N. Ad esempio, se si configurano quattro datapoint su cinque con un periodo di un minuto, l'intervallo di valutazione è di cinque minuti. Allo stesso modo, se si configurano tre datapoint su tre con un periodo di dieci minuti, l'intervallo di valutazione è di trenta minuti.

Con Datapoint su Alarm configurato in questo modo, CloudWatch Alarms valuta più datapoint. Inoltre, modificano lo stato di allarme solo quando un numero minimo di datapoint (M) viola un determinato set di datapoint (N). Questo parametro può regolare l'allarme in modo che si attivi su un singolo datapoint o richiedere più datapoint per passare allo stato ALARM.

Per ulteriori informazioni, consulta Creare un allarme CloudWatch basato su una soglia statica e Configurare la modalità di trattamento dei dati mancanti degli allarmi CloudWatch.


Informazioni correlate

Perché non ho ricevuto una notifica di Amazon Simple Notification Service (Amazon SNS) per l'attivazione del mio allarme CloudWatch?

Perché il mio allarme CloudWatch è nello stato INSUFFICIENT_DATA?

Perché il mio allarme CloudWatch mi ha inviato una notifica dopo la violazione di un singolo datapoint?

AWS UFFICIALE
AWS UFFICIALEAggiornata un anno fa