지표에 위반 데이터 포인트가 없는데 CloudWatch 경보가 트리거된 이유는 무엇인가요?

4분 분량
0

Amazon CloudWatch 경보가 ALARM(경보) 상태로 변경되었습니다. 모니터링 중인 지표를 확인할 때 CloudWatch 그래프에 위반 데이터 포인트가 표시되지 않습니다. 하지만 경보 기록에는 위반 데이터 포인트가 있는 항목이 포함되어 있습니다. CloudWatch 경보가 트리거된 이유는 무엇인가요?

간략한 설명

CloudWatch 경보는 특정 시점에 사용 가능한 데이터 포인트를 기준으로 지표를 평가합니다. 경보 기록은 해당 타임스탬프에서 경보가 평가한 데이터 포인트의 기록을 캡처합니다. 하지만 경보 평가가 발생한 후에 새 샘플이 게시될 수 있습니다. 이러한 새 샘플은 CloudWatch가 지표 데이터를 집계할 때 계산되는 값에 영향을 미칠 수 있습니다.

해결 방법

위반 데이터 포인트 찾기

CloudWatch 그래프에 위반 데이터 포인트가 표시되지 않는 경우 이러한 데이터 포인트가 경보 평가 시간 이후에 발생한 것입니다. 이러한 상황이 어떻게 발생하는지 이해하려면 다음 예를 참조하세요.

이 예에서는 경보 평가가 발생할 때 사용할 수 있는 샘플 수는 X개이며, 그 결과 집계된 값이 A가 됩니다. 나중에 새 샘플이 게시되면 동일한 타임스탬프에 대해 검색되는 샘플의 수는 Y개가 됩니다. 그 결과 집계된 값이 B로 달라집니다.

이 상황에서는 다음 파라미터로 경보가 구성됩니다.

  • 네임스페이스: 웹_앱
  • 지표: 응답 시간
  • 차원: 호스트,h_04254448d4e964956
  • 통계: 평균
  • 임계값: 0.005
  • 비교 연산자: 임계값 초과
  • 기간: 60초(1분)
  • 평가 기간: 1

경보가 UTC 12:00:00~12:01:00 기간을 평가하면 지표에 의해 다음 값이 검색됩니다.

Sample-1: 12:00:00 UTC, numeric value: 0.00675
Sample-2: 12:00:00 UTC, numeric value: 0.00789
Sample-3: 12:00:00 UTC, numeric value: 0.00421

이러한 값의 평균은 0.006283333로서, 임계값인 0.005초를 위반합니다. 따라서 경보가 ALARM(경보) 상태로 변경됩니다. 경보 기록에는 임계값을 초과하는 집계된 값이 캡처됩니다.

호스트에서 지표 게시를 담당하는 클라이언트 애플리케이션에 영향을 미치는 성능 문제가 일시적으로 발생할 수 있습니다. 이에 따라, 호스트가 동일한 간격으로 데이터 포인트를 게시하지 않을 수 있습니다. 이 상황에서는 경보 평가가 발생한 후 12:00의 샘플이 게시됩니다. 다음은 12:00 타임스탬프의 모든 샘플입니다.

Sample-1: 12:00:00 UTC, numeric value: 0.00675
Sample-2: 12:00:00 UTC, numeric value: 0.00789
Sample-3: 12:00:00 UTC, numeric value: 0.00421
Sample-4: 12:00:00 UTC, numeric value: 0.00002
Sample-5: 12:00:00 UTC, numeric value: 0.00007

이 경보로부터 알림을 받은 사용자는 CloudWatch 그래프를 렌더링하여 지표 동작을 검토합니다. CloudWatch는 UTC 12:00:00~12:01:00에 샘플 5개를 검색하여 평균 0.003788로 집계합니다. 이는 이전에 계산된 값과 다르며 임계값보다 낮습니다. 따라서 경보 평가가 발생한 후 추가 샘플이 게시되었으므로 시간 범위에서 위반 데이터 포인트를 볼 수 없습니다.

경보 평가 간격 늘리기

경보의 평가 간격은 데이터 포인트 수에 기간을 곱한 값입니다. 경보할 데이터 포인트를 구성하면 평가 간격이 길어질 수 있습니다. 지연된 지표로 인해 경보가 잘못된 알림을 생성하는 경우 평가 간격을 늘리면 경보 평가 시 지연된 데이터 포인트를 고려할 수 있습니다. 이렇게 하면 허위 알림 수가 줄어듭니다.

평가 간격은 다음 두 가지 방법 중 하나로 늘릴 수 있습니다.

1.    기간을 늘립니다. 다음 예에서는 기간이 5분으로 늘어납니다.

  • 네임스페이스: 웹_앱
  • 지표: 응답 시간
  • 차원: 호스트,h_04254448d4e964956
  • 통계: 평균
  • 임계값: 0.005
  • 비교 연산자: 임계값 초과
  • 기간: 300초(5분)
  • 평가 기간: 1

-또는-

2.    “N 중 M” 경보할 데이터 포인트를 구성합니다.

다음 예에서는 N 중 M 데이터 포인트가 3 중 2로 구성되어 있습니다.

  • 네임스페이스: 웹_앱
  • 지표: 응답 시간
  • 차원: 호스트,h_04254448d4e964956
  • 통계: 평균
  • 임계값: 0.005
  • 비교 연산자: 임계값 초과
  • 기간: 60초(1분)
  • 평가 기간(N): 3
  • 경보할 데이터 포인트(M): 2

평가 기간경보할 데이터 포인트를 다른 값으로 구성하면 “N 중 M” 경보가 설정됩니다. 경보할 데이터 포인트M이고 평가 기간N입니다. 예를 들어, 기간이 1분인 5 중 4 데이터 포인트를 구성한 경우 평가 간격은 5분입니다. 마찬가지로 기간이 10분인 3 중 3 데이터 포인트를 구성한 경우 평가 간격은 30분입니다.

이러한 방식으로 경보할 데이터 포인트를 구성하면 CloudWatch 경보가 더 많은 데이터 요소를 평가합니다. 또한 최소 수의 데이터 포인트(M)가 지정된 데이터 포인트 세트(N)를 위반하는 경우에만 경보 상태를 변경합니다. 이 파라미터는 단일 데이터 포인트에서 트리거하거나 여러 데이터 포인트가 ALARM(경보) 상태로 전환되도록 경보를 조정할 수 있습니다.

자세한 내용은 정적 임계값을 기반으로 CloudWatch 경보 생성CloudWatch 경보가 누락 데이터를 처리하는 방법 구성을 참조하세요.


관련 정보

CloudWatch 경보 트리거에 대해 Amazon Simple Notification Service(SNS) 알림을 받지 못한 이유는 무엇인가요?

CloudWatch 경보가 INSUFFICIENT_DATA 상태인 이유는 무엇인가요?

CloudWatch 경보가 단일 위반 데이터 포인트 이후에 알림을 보낸 이유는 무엇인가요?

AWS 공식
AWS 공식업데이트됨 일 년 전