Amazon CloudWatch 경보 및 OpsCenter 신규 통합 기능 출시

1년여 전, 저는 고객이 문제, 이벤트 및 경고를 한 곳에 집계하여 운영 엔지니어와 IT 부서가 보다 쉽게 문제를 조사하고 해결할 수 있게 해 주는 OpsCenter라는 AWS Systems Manager 기능 출시에 대한 글을 썼습니다. 오늘은 이 기능과 Amazon CloudWatch 경보의 새로운 통합에 대해 알려 드리겠습니다.

CloudWatch 경보가 경보 상태에 들어갈 때, 이제 Systems Manager OpsCenter 내에서 OpsItem(운영 작업 항목)을 자동으로 생성할 수 있습니다.

예를 들어, EC2 인스턴스의 CPU 사용률이 75% 이상인 경우 OpsItem을 자동으로 생성하도록 경보를 구성할 수 있습니다. 이 항목에는 엔지니어가 문제를 해결하는 데 필요한 모든 정보가 포함되어 있어 팀의 생산성을 높이고 문제 조사 속도를 높이는 데 필요한 도구를 제공합니다.

여러 지표 경보를 함께 결합할 수도 있습니다. 예를 들어, 두 CPU 사용률이 모두 75% 이상이고 로드 밸런서 지연 시간이 100ms를 초과하는 경우에만 트리거되는 복합 경보를 만들 수 있습니다. 이렇게 하면 CPU 사용률이 증가했지만 로드 밸런서가 여전히 응답하는 인스턴스를 무시할 수 있습니다.

이 새로운 통합이 어떻게 작동하는지 보여드리기 위해 경보가 발생했을 때 OpsItem 생성을 트리거하는 경보를 만들어 보겠습니다. 시작하려면 CloudWatch 경보(Alarms) 콘솔로 이동합니다.

경보 발생
콘솔에서 경보 생성(Create alarm) 버튼을 클릭하여 새 경보를 생성합니다.

CloudWatch에서 모니터링할 지표를 선택하기 위해 지표 선택(Select metric) 버튼을 클릭합니다.

모니터링할 인스턴스와 지표인 CPUUtilization을 선택한 다음 지표 선택(Select metric) 단추를 클릭합니다.

지표 및 조건 지정(Specify metric and conditions) 화면에서 임계값 유형(Threshold type)을 정적(Static)으로 선택하고 CPUUtilization이 75 이상인 경우 상태가 경보(Alarm)로 변경되도록 구성합니다.

OpsItem 생성
이제 경보에 대한 작업을 구성해 보겠습니다. 알림(Notification) 섹션에서 제거(Remove) 버튼을 클릭하여 기본 작업을 삭제합니다. 그런 다음 Systems Manager OpsCenter 작업(Systems Manager OpsCenter action) 섹션으로 스크롤하고 Systems Manager OpsCenter 작업 추가(Systems Manager)단추를 누릅니다.

OpsItem의 심각도(Severity)로 중간(Medium)을 선택합니다. 카테고리(Category)는 선택 사항이지만 성능(Performance)을 선택하도록 하겠습니다. 알림과 달리 통합은 경보가 경보(Alarm) 상태일 때만 트리거된다는 것을 알 수 있습니다. 정상(Ok) 또는 불충분(Insufficient) 조건에 대해서는 OpsItem을 생성할 수 없습니다. 다음(Next)을 클릭하여 작업을 생성합니다.

마지막으로, 이 경보에 이름과 설명을 부여합니다.

다음 화면에서는 모든 경보 설정을 검토합니다. 설정에 만족하면 생성(Create) 버튼을 클릭합니다.

이제 경보가 활성화되고 시스템이 선택된 지표를 모니터링합니다.

이 데모에서는 이제 EC2 인스턴스에서 CPU 스트레스 테스트를 실행하겠습니다. CPU 사용이 극대화되어 새로 생성한 경보가 트리거될 것입니다.

몇 분 후 CloudWatch 경보(Alarms) 콘솔로 이동하여 경보가 현재 경보(Alarm) 상태에 있는지 확인합니다.

OpsItem 보기
새로운 통합은 OpsItem의 생성을 트리거하므로 Systems Manager OpsCenter 콘솔로 이동하면 새로 생성된 OpsItem을 볼 수 있습니다.

OpsItem을 드릴다운하면 세부 정보를 볼 수 있습니다. 경보가 트리거된 시점의 CPU 사용률에 대한 정보, 문제 해결을 위해 제안된 런북 및 관련 리소스를 볼 수 있습니다.

문제를 해결하는 데 필요한 모든 중요한 정보는 OpsItem에 있습니다. 예를 들어 관련 리소스(Related resources) 섹션에서 경보에 대한 리소스 ARN(Resource ARN)을 클릭하면 OpsCenter를 나가지 않고 CPU 사용률 그래프를 비롯한 관련 경보 정보를 볼 수 있습니다.

마찬가지로 EC2 인스턴스의 리소스 ARN(Resource ARN)을 클릭하면 OpsCenter에서 나가지 않고도 해당 리소스에 대한 관련 정보를 표시할 수 있습니다.

런북(Runbooks) 섹션에는 문제를 자동으로 해결할 수 있는 제안된 런북의 목록이 제공됩니다. 실제 세계에서는 시스템의 일반적인 문제를 해결하기 위해 몇 가지 사용자 지정 런북을 사용할 수도 있지만 여기에서는 OpsItem에서 직접 AWS-RestartEC2Instance 런북을 실행하여 인스턴스를 껐다 켜는 간단한 IT 해결책을 실행해 보겠습니다.

이 데모는 이 새로운 통합을 통해 문제를 신속하게 발견하고 중요한 조사 데이터를 한 곳에 제공함으로써 엔지니어의 생산성을 높일 수 있다는 것을 보여 주었습니다.

알아두면 좋은 정보

Systems Manager OpsCenter 작업은 기존 알림과 병렬로 작동합니다. 따라서 둘 중 하나를 선택할 필요가 없으므로 기존 지원 메커니즘을 계속 사용하여 SNS 등을 통해 알림을 계속 전송할 수 있습니다.

OpsCenter는 경보 이벤트의 중복을 제거해 줍니다. 이 기능은 경보(Alarm) 상태로 들어가고 나가는 경보가 여러 개의 OpsItem를 생성할 수 있는 “플래핑 문제”를 피할 수 있게 해 줍니다.

지금 이용 가능
AWS Systems Manager OpsCenter와 Amazon CloudWatch 경보 간의 이 새로운 통합은 Systems Manager를 지원하는 모든 리전에서 사용 가능합니다. 시작하려면 AWS Management Console의 CloudWatch 경보(Alarms) 섹션으로 이동하여 첫 번째 Systems Manager OpsCenter 작업을 연결하십시오. 설명서를 통해 통합의 작동 방식에 대한 구체적인 세부 정보도 확인할 수 있습니다.

경보 기능을 다양하게 활용해 보세요.

— Martin

Amazon Web Services 한국 블로그

Amazon CloudWatch 경보 및 OpsCenter 신규 통합 기능 출시

주요 링크 모음

팔로우하기