CloudWatch 경보가 작업을 활성화하는지 확인하려면 어떻게 해야 합니까?

2분 분량
0

CloudWatch 그래프에서 경보 지표가 구성된 임계값을 초과하는 것을 볼 수 있지만 Amazon CloudWatch 경보가 활성화되지 않습니다. CloudWatch 경보가 활성화되고 경보 작업이 수행되는지 확인하려면 어떻게 해야 합니까?

간략한 설명

시간 집계 지표(예: 5분 평균)를 측정하는 CloudWatch 경보는 롤링 윈도우에서 이 측정을 연속으로 수행합니다. 평가 기간 중에 수집된 모든 데이터 포인트가 구성된 임계값을 초과하지 않으면 CloudWatch 경보가 활성화되지 않습니다.

경보 상태가 변경되고 지정된 수의 기간 동안 유지되면 CloudWatch 경보가 작업을 시작합니다. 자세한 내용은 CloudWatch 경보 생성을 참조하십시오.

중요: Amazon EC2 Auto Scaling 작업과 관련된 CloudWatch 경보의 경우 이 동작에 대한 예외가 있습니다. CloudWatch 경보는 해당 경보가 지정된 상태일 때 Auto Scaling 작업을 계속 활성화합니다. 이 문제는 상태가 변경되지 않고 경보가 해당 상태로 유지되는 경우에도 발생합니다.

해결 방법

경보를 생성할 때 CloudWatch에서 시간 집계 지표를 측정하는 데 사용되는 메커니즘을 고려해야 합니다.

경보가 예상대로 작동하도록 지표 데이터 임계값을 낮추는 것도 고려해야 합니다.

문제 해결 예제

이 예제에서는 평균 CPU ​사용률을 기반으로 하는 경보가 있습니다. 경보는 45 초과의 임계값으로 구성됩니다. 최소 3회, 연속 5분 동안 실행됩니다. 다음 시간 집계 지표의 평가 기간은 3초이고 기간은 300초입니다.

  • 05:25:00: data: {Avg=61.123}
  • 05:30:00: data: {Avg=57.847}
  • 05:35:00: data: {Avg=60.503}
  • 05:40:00: data: {Avg=55.473}
  • 05:45:00: data: {Avg=41.685}
  • 05:50:00: data: {Avg=58.390}
  • 05:55:00: data: {Avg=57.846}
  • 06:00:00: data: {Avg=61.123}

이러한 데이터 포인트는 다음과 같은 경보 상태가 됩니다.

  • 05:35 ALARM
  • 05:40 ALARM
  • 05:45 ALARM to OK
  • 05:50 OK
  • 05:55 OK
  • 06:00 OK to ALARM

05:55에서 수집된 데이터 포인트는 평균 CPU 사용률 임계값 45%를 초과합니다. 하지만 05:55에서 경보는 OK 상태로 유지되고 ​작업을 활성화하지 않습니다. 이 문제는 05:45:00에서 수집된 데이터 포인트(임계값을 초과하지 않음)가 05:55의 평가에 포함되기 때문에 발생합니다. 하지만 5분이 지난 06:00에는 경보 상태가 OK에서 ALARM으로 바뀌기 때문에 경보가 작업을 시작합니다​.

다음 시간 집계 지표의 경우 05:35 이후에는 모든 데이터 포인트가 평균 CPU 사용률 임계값인 45%를 초과하기 때문에 경보 상태가 ALARM이 됩니다. 상태 변경이 없기 때문에 경보 작업이 활성화되지 않습니다.

  • 05:25:00: data: {Avg=61.123}
  • 05:30:00: data: {Avg=57.847}
  • 05:35:00: data: {Avg=60.503}
  • 05:40:00: data: {Avg=55.473}
  • 05:45:00: data: {Avg=45.075}
  • 05:50:00: data: {Avg=58.390}
  • 05:55:00: data: {Avg=57.847}
  • 06:00:00: data: {Avg=61.123}

관련 정보

Amazon EC2 Auto Scaling을 위한 동적 조정

사용 가능한 지표 보기

AWS 공식
AWS 공식업데이트됨 2년 전