Incident Manager란 무엇인가요?
인시던트 관리(IM)는 IT 팀이 예상치 못한 서비스 중단에 대응하기 위해 사용하는 프로세스입니다. 네트워크 연결 끊김 또는 성능 저하가 있거나 예약된 작업(예: 백업 작업)이 실행되지 않거나 API가 응답하지 않는 등의 인시던트로 인해 예상치 못한 운영 중단이 발생합니다. 인시던트 관리 프로세스는 IT 서비스의 정상 운영을 신속하게 복원하고 비즈니스에 미치는 영향을 최소화하는 프로세스입니다. 이 프로세스에서 팀은 인시던트를 탐지 및 조사하고, 문제를 해결하고, 서비스를 복원하기 위해 취하는 단계를 문서화합니다.
인시던트 관리가 필요한 이벤트는 무엇인가요?
인시던트 관리라는 용어는 IT 분야에서만 사용되는 것은 아닙니다. IT 외에도 긴급 서비스, 대규모 이벤트 관리 및 공장 운영 등의 분야에서 IM에 대해 듣게 될 것입니다.
이 문서에서는 IT 서비스 관리(ITSM)의 맥락에서 IM을 언급합니다. 이러한 맥락에서 인시던트 관리는 서비스 품질 및 고객 서비스 자체에 관한 관리 활동에 중점을 둡니다.
다음으로 ITSM의 IM 범위 내에서 발생하는 다양한 IT 이벤트에 대해 살펴보겠습니다.
사고
인시던트 관리 내에서 인시던트는 예상되거나 합의된 IT 서비스 품질 저하를 초래하는 예상치 못한 이벤트로 정의할 수 있습니다. 인시던트의 규모는 작거나 클 수 있으며 심각도를 표시할 수 있습니다. 예를 들어 서비스 품질 저하는 미미할 수 있으며 특정 지리적 위치에만 국한될 수 있습니다. 또는 여러 지역에서 서비스가 완전히 중단될 수 있습니다.
문제
문제란 인시던트의 근본 원인을 말하며, 이는 추가 조사 후 발견되며 완전한 인시던트 해결을 위해 필요합니다. 예를 들어 웹 서버가 느리게 실행되는 경우 데이터 센터의 라우터 구성이 잘못되었거나 주변의 네트워크 케이블이 끊어진 것이 문제일 수 있습니다.
변경
IM에서 변경이란 예를 들어 품질을 개선하거나 새로운 기능을 추가하기 위해 서비스 자체가 변경되는 경우를 말합니다. 변경 기간 동안에는 정상적인 비즈니스 운영이 중단되지 않도록 또는 최소화하기 위해 롤오버를 신중하게 처리해야 합니다. 여기에는 예상되거나 잠재적인 서비스 중단에 대해 클라이언트에게 알리는 것이 포함됩니다.
서비스 요청
서비스 요청은 제공업체-클라이언트 계약 조건의 범위 내에서 고객이 시작한 요청입니다. 요청은 정상 운영에 지장을 주지 않고 수행되어야 합니다.
인시던트 관리는 어떻게 작동하나요?
인시던트 관리는 IT 운영 중단의 부정적인 영향과 기간을 최소화하기 위해 수행해야 할 작업을 명확하게 설명하는 일련의 문서화된 프로세스를 사용합니다. 무엇이 잘못되었는지에 대한 기술적 관리 외에도 인시던트 발생 시 고객, 사용자 및 이해 관계자의 기대치를 관리하는 것도 포함됩니다.
고객의 경우 서비스 수준 계약(SLA)은 예상 가동 시간 보장, 해결 시간 및 인시던트에 대한 통신 채널을 명확하게 정의합니다. SLA 약관을 준수하려면 서비스 제공업체 측의 포괄적인 인시던트 관리가 필요합니다.
IT 인시던트 관리 프레임워크
조직에서 IM을 모델링하는 데 사용하는 다양한 프레임워크가 있습니다. 두 가지 예로는 IT 인프라 라이브러리(ITIL) 4의 인시던트 관리와 미국 국립 표준 기술 연구소(NIST)의 사이버 보안 프레임워크가 있습니다. 이러한 프레임워크는 있는 그대로 사용하거나 고유한 비즈니스 환경, 서비스, 고객 및 이해관계자 커뮤니케이션 표준에 맞게 확장할 수 있습니다.
인시던트 관리 소프트웨어는 종종 조직 내에 프레임워크를 배포하는 데 사용됩니다. 사용되는 정확한 프레임워크는 제공되는 서비스에 따라 다릅니다.
인시던트 관리 프로세스의 단계는 무엇인가요?
인시던트 관리 프로세스와 관련된 단계는 조직 내에서 사용되는 프레임워크에 따라 달라집니다. 다음으로 많은 일반적인 인시던트 관리 수명 주기 프레임워크의 주요 단계를 살펴보겠습니다.
위험 파악
중요 자산, 시스템, 데이터 및 기타 리소스를 파악하면 비즈니스에 가장 큰 위험 요소가 어디에 있는지를 판단할 수 있습니다. 클라이언트에게 서비스를 제공하기 위해서는 클라이언트의 가장 가치 있는 시스템과 자산을 파악하는 것이 포함됩니다.
자산 보호
자산이 파악되면 조직은 보안 및 성과 제어를 강화합니다. 예를 들어, 지역적인 정전 발생 시에도 지속적으로 사용할 수 있도록 애플리케이션을 여러 지역에 배포할 수 있습니다.
인시던트 탐지
모든 인시던트를 실시간으로 파악할 수 있도록 중요 자산의 상태를 모니터링하는 시스템이 마련되어 있어야 합니다. 조직은 사전 예방적으로 이상 징후를 모니터링해야 합니다. 일반적으로 고객이 먼저 직접 보고한 서비스 중단 소식은 바람직하지 않습니다. 사전 예방적 해결에 중점을 둬야 합니다.
인시던트에 대한 대응
인시던트가 탐지되면 운영 중단을 즉시 멈춰야 합니다. 불가능한 경우에는 프로세스에 따라 영향을 억제하거나 제한할 수 있습니다. 빠른 해결책이 없더라도 작업을 재개할 수 있도록 보조 시스템을 활성화해야 할 수도 있습니다. 인시던트의 특성과 현재 인시던트 관리 도구에 따라 이 중 많은 부분이 자동화될 수 있습니다.
인시던트로부터 복구
복구 단계에서 인시던트 분석이 시작됩니다. 학습한 내용을 캡처하고, 개선된 대응 계획을 수립하고, 문제와 프로세스를 개선합니다. 중대 인시던트에는 상당한 복구 노력이 필요할 수 있습니다. 다음 이미지는 Amazon Web Services(AWS)에서 사용하는 인시던트 관리 프로세스 중 하나를 보여줍니다.
인시던트 관리 모범 사례는 무엇인가요?
모범 사례는 조직이 특정 사업부 또는 전략지구 내에서 가장 성숙한 수준에서 운영될 수 있도록 도와줍니다. 인시던트 관리 시스템의 모범 사례를 따르면 고객에게 최상의 서비스를 제공할 수 있습니다.
에스컬레이션 정책 개발
우선 순위와 심각도에 따라 인시던트를 분류하여 일정, 해결 및 조사를 안내할 수 있어야 합니다. 인시던트 대응이 예상대로 진행되지 않거나 우선 순위 또는 심각도가 높은 주요 인시던트가 발생하는 경우 에스컬레이션 정책을 제정해야 합니다. 이러한 정책이 없으면 팀에서 누구에게 연락하고 무엇을 할지 결정하는 데 시간을 낭비할 수 있습니다.
세부적인 커뮤니케이션 계획
IT 팀에서 최종 사용자에 이르는 이해 관계자에게 인시던트 현황을 지속적으로 알려야 합니다. 영향을 받은 사람들이 업데이트 받거나 새로운 인시던트를 신고하기 위해 어디로 가야 할지 명확한 커뮤니케이션 채널을 마련하는 것도 중요합니다. 명확한 커뮤니케이션 계획을 마련하면 신뢰를 쌓고 잘못된 비난을 피할 수 있습니다. 중대한 인시던트는 언제나 외교를 통해 처리됩니다.
근본 원인 분석 수행
인시던트를 해결한 후에는 근본 원인 분석을 수행하여 애초에 인시던트가 발생한 이유를 파악해야 합니다. 이를 통해 시스템의 격차나 취약성을 식별할 수 있으며, 이를 해결하여 향후 유사한 인시던트를 예방할 수 있습니다. 각 인시던트에서 얻은 교훈은 IT 인프라 및 프로세스를 지속적으로 개선하는 데 도움이 됩니다.
카오스 엔지니어링 관행 채택
카오스 엔지니어링은 소프트웨어 엔지니어링의 한 분야로, 시스템을 의도적으로 서버 장애, 네트워크 지연 또는 리소스 제한과 같은 파괴적인 상태에 노출되도록 합니다. 카오스를 시스템에 구축하면 복원력이 테스트되고 조직의 인시던트 대응 및 관리 프로세스도 강화됩니다. 이는 사이버 보안 인시던트 관리에 윤리적 해킹을 적용하는 것과 유사한 기법입니다.
AWS는 인시던트 관리 요구 사항을 어떻게 지원하나요?
AWS는 조직이 AWS 및 하이브리드 환경 내에서 효과적인 인시던트 관리를 제공할 수 있도록 지원하는 다양한 서비스를 제공하고 있습니다.
AWS 인시던트 탐지 및 대응은 AWS Enterprise Support 고객에게 선택한 워크로드에 대한 선제적 모니터링 및 인시던트 관리를 제공합니다. 전문가와 협력하여 IT 인시던트 관리 시스템의 중요 지표, 경보 및 우선 순위 지정 일정을 정의하여 인시던트 발생 시 복구를 가속화합니다.
AWS Managed Services(AMS)는 AWS 인시던트 대응 및 해결 능력을 통해 조직의 정보와 인프라를 보호하는 데 도움이 됩니다. AMS는 조직이 핵심 비즈니스에 집중할 수 있도록 AWS IT 인시던트 관리를 아웃소싱하는 방법으로 사용할 수 있습니다. AMS로 수행할 수 있는 작업은 다음과 같습니다.
- AWS 콘솔의 AWS Support 센터를 통해 언제든지 운영 문제 및 요청에 대한 지원 요청
- 선택한 계정 서비스 등급(Plus, Premium)에 따라 응답 시간이 달라지는 연중무휴 지원 액세스
- 동일한 메커니즘을 사용하여 중요한 알림 및 질문에 대한 사전 알림 수신
AWS Well-Architected Framework의 일부로서 클라우드 인시던트 관리에 대한 지침도 명확히 제공합니다. AWS 클라우드 서비스를 사용하는 자체 IT 서비스를 제공하는 조직의 인시던트 관리 계획을 세우는 데 도움이 되는 유용한 리소스입니다. AWS 보안 인시던트 대응 안내서는 보안 관련 인시던트에 대한 또 다른 유용한 자료입니다.
지금 바로 계정을 만들어 AWS에서 인시던트 관리를 시작하세요.