Amazon Web Services 한국 블로그

AWS Systems Manager – 신규 Incidet Manager를 통해 IT 긴급 요청 처리하기

IT 엔지니어는 애플리케이션 및 인프라를 구축하는 데 투입하는 기술과 관리에 자부심을 갖고 있습니다. 그러나 인정하기는 싫지만 100% 가동 시간과 같은 것은 없습니다. 어느 시점이 되면 모든 것이 실패하게 되며 종종 가능한 가장 최악의 시간에 발생해 망가진 저녁 식사나 생일 파티 또는 결혼 기념일로 이어지곤 합니다.

호출기가 요란하게 울리면 담당 엔지니어는 서비스를 복원하기 위해 허둥대며 이때는 매 순간이 중요합니다. 예를 들어 긴급 호출의 근본 원인을 정확히 파악하기 위해 물밀 듯이 밀려오는 모니터링 알림을 신속하게 필터링할 수 있어야 합니다. 마찬가지로, 긴급 문제를 해결하는 데 필요한 적절한 런북 및 절차를 찾아 액세스하는 데 시간을 낭비할 여유가 없습니다. 새벽 3시에 빨간 알림의 바다에서 ‘문서에 있어야 할’ 마법 같은 명령을 필사적으로 찾고 있다고 상상해보세요. 분명히 기분 좋은 느낌은 아닐 것입니다.

심각한 문제는 대부분 에스컬레이션이 필요합니다. 팀원의 도움을 받는 것도 좋지만 협업과 신속한 해결을 위해서는 효율적인 커뮤니케이션이 필요합니다. 효율적인 커뮤니케이션이 이루어지지 않는다면 조직적이지 않은 작업들로 인해 사고로 이어질 수 있으며 이는 상황을 혼란스럽게 하거나 악화시킬 수 있습니다.

마지막이자 중요한 또 한 가지 작업은 긴급 문제 처리에 대응한 방법을 문서화하는 것입니다. 문제가 해결되고 모두가 잠든 후에 문제를 재현하고 지속적으로 플랫폼 및 문제대응 절차를 개선하기 위해 노력할 수 있습니다.

이 모든 작업에는 업계 모범 사례와 적절한 도구를 기반으로 한 많은 준비가 필요합니다. 대부분의 기업과 조직은 반복되는 긴급 문제의 과정에서 이를 배울 여유가 없습니다. 이런 식으로 장애 대비 및 대응 관행을 구축하는 것은 매우 힘듭니다.

이에 따라 많은 고객들이 AWS에 도움을 요청했으며, 이제 애플리케이션 및 인프라 긴급 이슈에 효율적으로 대비하고 대응할 수 있도록 돕는 AWS Systems Manager의 새로운 기능인 Incident Manager를 발표하게 되었습니다.

지금 바로 Incident Manager를 사용해 보고 싶다면 Incident Manager 콘솔로 이동하세요. 더 자세히 알아보려면 이 문서의 내용을 계속 읽어보세요.

AWS Systems Manager의 Incident Manager 소개
1995년 Amazon.com을 시작한 이래 Amazon 팀은 서비스에 대한 인시던트 대응을 담당해 왔습니다. Amazon 팀은 수년에 걸쳐 모든 규모의 애플리케이션 및 인프라 문제에 대응하는 데 풍부한 경험을 축적해 왔습니다. Amazon의 주요 인시던트 관리 팀은 이러한 수년 간의 경험을 바탕으로 모든 AWS 고객이 더 신속하게 인시던트에 대비하고 인스던트를 해결할 수 있도록 Incident Manager를 설계했습니다.

대비가 가장 중요합니다. Incident Manager를 사용하면 경보가 울리는 즉시 바로 사용할 수 있는 인시던트 대응 리소스 모음을 쉽게 만들 수 있습니다. 이러한 리소스는 다음과 같습니다.

  • 연락처: 인시던트 해결에 관여할 수 있는 팀원 및 팀원을 호출하는 방법(음성, 이메일, SMS)
  • 에스컬레이션 계획: 주 전화 응답자에게 인시던트를 알리지 못할 경우 호출해야 하는 추가 연락처
  • 대응 계획: 참여 대상(연락처 및 에스컬레이션 계획), 해야 할 일(따라야 할 런북) 및 협업 위치(AWS Chatbot에 연결된 채널)

Incident Manager

간단히 말해, 대응 계획을 만들면 표준화된 방식으로 인시던트에 대비할 수 있으므로 인시던트가 발생하는 즉시 대응하고 더 빠르게 해결할 수 있습니다. 대응 계획은 Amazon CloudWatch 경보 또는 사용자가 선택한 Amazon EventBridge 이벤트 알림에 의해 자동으로 트리거될 수 있습니다. 필요한 경우 대응 계획을 수동으로 시작할 수도 있습니다.

대응 계획이 시작되면 연락처로 호출이 가고 Incident Manager 콘솔에 새 대시보드가 자동으로 배치됩니다. 이 대시보드는 인시던트와 관련된 모든 것을 참조할 수 있는 곳입니다.

  • 대응 담당자가 상황을 빠르고 정확하게 파악할 수 있게 해주는 인시던트 개요
  • 인시던트와 관련된 CloudWatch 지표 및 경보 그래프
  • Incident Manager가 추가한 모든 이벤트 및 대응 담당자가 수동으로 추가한 모든 사용자 지정 이벤트가 나열된 인시던트 타임라인
  • 대응 계획에 포함된 런북 및 런북의 현재 실행 상태와 Incident Manager가 제공하는 분류, 진단, 완화 및 복구 단계를 구현하는 기본 템플릿
  • 연락처 및 채팅 채널에 대한 링크
  • 관련 Systems Manager OpsItems 목록

다음은 샘플 대시보드입니다. 보시다시피 한 번의 클릭으로 위의 모든 항목에 쉽게 액세스할 수 있습니다.

인시던트 대시보드

인시던트가 해결된 후 Amazon이 오류 정정을 위해 사용하는 템플릿을 기반으로 하는 기본 제공 템플릿을 사용하거나 사용자가 만든 템플릿을 사용하여 인시던트 사후 분석을 생성할 수 있습니다. 이 분석을 통해 인시던트의 근본 원인과 이를 해결하기 위한 더 나은 또는 더 빠른 작업을 알 수 있습니다.

인시던트 타임라인을 검토하고 편집하여 특정 이벤트 및 그 해결 방법을 확대하여 볼 수 있습니다. 이 과정을 안내하기 위해 분석에 질문이 자동으로 추가됩니다. 이러한 질문에 답변하면 잠재적인 개선 사항과 이를 인시던트 대응 절차에 추가하는 방법을 알아낼 수 있습니다. 다음은 이러한 질문 중 일부를 보여주는 샘플 분석입니다.

인시던트 분석

마지막으로, Incident Manager는 권장 작업 항목을 제시하며 사용자는 이를 수락하거나 무시할 수 있습니다. 사용자가 항목을 수락하면 체크리스트에 항목이 추가되며 이 체크리스트는 분석을 종료하기 전에 모두 완료해야 하는 작업 항목의 목록입니다. 이 항목은 AWS Systems Manager OpsCenter에 OpsItem으로 제출되며, OpsCenter는 Jira 및 ServiceNow와 같은 티켓 시스템에 동기화될 수 있습니다.

시작하기
IT 인시던트에 성공적으로 대응할 수 있는 비결은 대비하고 또 대비하고 더욱더 대비하는 것입니다. 곧 발생할 실패에 대비하는 계획을 세우는 것이 좋습니다. 새벽 3시에 호출기 경보가 울리면 이전과는 전혀 다른 상황이 펼쳐질 것입니다.

Incident Manager가 대비, 해결 및 분석 워크플로를 개선하여 인시던트를 더 빠르게 해결하는 데 도움이 될 것이라고 생각합니다. Incident Manager는 현재 다음의 AWS 리전에서 제공됩니다.

  • 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤)
  • 유럽(아일랜드), 유럽(프랑크푸르트), 유럽(스톡홀름)
  • 아시아 태평양(도쿄), 아시아 태평양(싱가포르), 아시아 태평양(시드니)

사용해보시고 여러분의 의견을 알려주세요. 언제나와 마찬가지로, 여러분의 피드백을 기다리고 있습니다. 일반 AWS Support 담당자를 통해 보내거나, AWS Systems Manager의 AWS 포럼을 통해 보내실 수 있습니다.

– Julien