Что такое управление инцидентами?

Управление инцидентами (IM) – это процесс, который ИТ-команды используют для реагирования на незапланированные перерывы в обслуживании. Неожиданные сбои возникают из-за таких инцидентов, как потеря или ухудшение сетевого подключения, невыполнение запланированной задачи (например, резервного копирования) либо неработоспособность API. Процесс управления инцидентами направлен на быстрое восстановление нормальной работы ИТ-сервиса и минимизацию влияния на компанию. В ходе этого процесса команда обнаруживает и расследует инциденты, устраняет проблемы и документирует шаги, предпринятые для восстановления работы сервиса.

Какие события требуют управления инцидентами?

Термин «управление инцидентами» используется не только в ИТ-сфере. За ее пределами с управлением инцидентами можно встретиться в таких областях, как аварийно-спасательные службы, управление крупными мероприятиями, эксплуатация предприятий.

В этой статье мы рассматриваем управление инцидентами в контексте управления ИТ-услугами (ITSM). В данном случае управление инцидентами сфокусировано на управленческой деятельности, касающейся качества обслуживания и собственно обслуживания клиентов.

Далее мы обсудим различные ИТ-события в рамках управления инцидентами в ITSM.

Инцидент

Инциденты в рамках управления инцидентами можно определить как непредвиденные события, которые приводят к снижению ожидаемого или согласованного качества ИТ-услуг. Масштаб инцидента может быть небольшим или большим, и можно указать степень критичности. Например, снижение качества обслуживания может быть минимальным и ограничиваться конкретным географическим положением, или сервис может полностью перестать работать во многих регионах.

Проблема

Под проблемой подразумевается основная причина инцидента, которая обнаруживается после дальнейшего расследования. Для полного разрешения инцидента необходимо найти проблему. Например, если веб-сервер работает медленно, проблема может заключаться в неправильной конфигурации маршрутизатора в центре обработки данных или в оборванном сетевом кабеле на периметре.

Изменение

В управлении инцидентами под изменением подразумевается изменение самой услуги, например в целях повышения качества или добавления новых функций. В период изменений необходимо быть аккуратными, чтобы избежать нарушения нормальной работы предприятия или свести его к минимуму. Сюда входит информирование клиентов об ожидаемых или потенциальных перебоях в обслуживании.

Запрос на обслуживание

Запрос на обслуживание – это инициированное клиентом обращение в рамках условий соглашения между ним и поставщиком. Запрос должен быть выполнен без нарушения нормальной работы.

Как работает управление инцидентами?

Для управления инцидентами используется набор документированных процессов, которые четко определяют, что необходимо сделать, чтобы минимизировать негативные последствия и продолжительность сбоев в работе ИТ. Помимо технического управления ошибками этот процесс также включает в себя управление ожиданиями клиентов, пользователей и заинтересованных сторон во время инцидента.

Для клиентов соглашения об уровне обслуживания (SLA) четко определяют ожидаемые гарантии безотказной работы, время разрешения проблемы и каналы связи при возникновении инцидентов. Поэтому поставщику услуг необходимо комплексно управлять инцидентами, чтобы выполнить условия SLA.

Подробнее об SLA »

Платформы для управления ИТ-инцидентами

Существуют различные платформы, которые организации используют для моделирования методов управления инцидентами. Двумя примерами являются методы управления инцидентами из Библиотеки ИТ-инфраструктуры (ITIL) 4 и платформа кибербезопасности Национального института по стандартизации и технологии (NIST). Эти платформы можно использовать в существующем виде или в расширенном, адаптировав их к своей уникальной бизнес-среде, услугам, стандартам коммуникации с клиентами и заинтересованными сторонами.

Программное обеспечение для управления инцидентами часто используется, чтобы развернуть в организации платформу. Конкретно используемая платформа зависит от предлагаемых услуг.

 

Из каких этапов состоит процесс управления инцидентами?

Этапы процессов управления инцидентами зависят от структуры, используемой в организации. Далее мы обсудим основные этапы многих распространенных структур жизненных циклов управления инцидентами.

Определение риска

Идентификация критически важных ресурсов, систем, данных и других материалов определяет, в чем заключаются наибольшие риски для компании. В контексте предоставления услуг клиентам это также включает определение их наиболее ценных систем и ресурсов.

Защита ресурсов

После этапа идентификации ресурсов организации усиливают контроль безопасности и производительности. Например, для обеспечения постоянной доступности приложения в случае региональных сбоев оно может быть развернуто в нескольких регионах. 

Обнаружение инцидентов

Чтобы можно было выявлять любые инциденты в режиме реального времени, необходимо создать системы мониторинга состояния критически важных ресурсов. Организации должны активно отслеживать нарушения и выявлять их первыми, а не узнавать о них от клиента, сообщившего об этом самостоятельно. Основное внимание уделяется упреждающим мерам по исправлению нарушений.

Реагирование на инциденты

Сразу же после обнаружения нарушения вы должны немедленно начать процесс восстановления работы. Если это невозможно, вы можете следовать процедуре, чтобы сдержать воздействие нарушений или ограничить его. Также может потребоваться задействовать вспомогательные системы, чтобы возобновить работу даже в случае отсутствия быстрого решения проблемы.  Многие из этих процессов можно автоматизировать. Это зависит от характера инцидента и существующих средств управления ими.

Восстановление после инцидентов

На этапе восстановления начинается анализ инцидента. Вы суммируете накопленный опыт, разрабатываете улучшенные планы реагирования, устраняете проблемы и отлаживаете процессы. Серьезные инциденты могут потребовать значительных усилий по восстановлению. На следующем рисунке показан один из процессов управления инцидентами, который использует Amazon Web Services (AWS).

Каковы передовые практики управления инцидентами?

Лучшие практики помогают организациям работать на самом высоком уровне в рамках определенного бизнес-подразделения или стратегической области. Следуя передовым практикам в системах управления инцидентами, вы можете предоставлять своим клиентам наилучший сервис.

Разработка стратегий эскалации

Вы должны иметь возможность классифицировать инциденты в соответствии с их приоритетом и серьезностью, чтобы определить сроки, меры по устранению неполадок и расследованию. Стратегии эскалации следует применять в следующих случаях: если реагирование на инциденты не оправдало ожиданий или если произошел серьезный инцидент высокой степени приоритетности либо серьезности. Без этих стратегий ваша команда может тратить время на то, чтобы решать, с кем связаться и что делать.

Составление подробного коммуникационного плана

Заинтересованные стороны, от ИТ-отдела до ваших конечных пользователей, должны быть в курсе инцидента. Также важно иметь четкие каналы связи, чтобы пострадавшие знали, куда обращаться за новой информацией или сообщать о новых инцидентах. Благодаря четкому коммуникационному плану вы сможете завоевать доверие и избежать ненужных обвинений. Критические инциденты всегда решаются дипломатическим путем. 

Анализ первопричин

После устранения инцидента вам следует провести анализ первопричин, чтобы понять, почему инцидент вообще произошел. Это помогает выявить пробелы или уязвимости в системе, которые можно устранить, чтобы предотвратить подобные инциденты в будущем. Уроки, извлеченные из каждого инцидента, помогают постоянно совершенствовать ИТ-инфраструктуру и процессы.

Внедрение методов хаотического инжиниринга

Хаотический инжиниринг – это дисциплина в области разработки программного обеспечения, в которой системы намеренно подвергаются деструктивным условиям, таким как сбои серверов, задержки в сети или ограничения ресурсов. Внедрение хаоса в системы проверяет их устойчивость, а также укрепляет процессы реагирования на инциденты и управления ими внутри организации. Этот метод аналогичен использованию этичного взлома при управлении инцидентами кибербезопасности.

Как AWS может поддержать ваши требования к управлению инцидентами?

AWS предлагает ряд сервисов, которые помогают организациям эффективно управлять инцидентами на AWS и в гибридных средах.

Сервис для обнаружения инцидентов AWS и реагирования на них предлагает клиентам корпоративной поддержки AWS проактивный мониторинг и управление инцидентами для выбранных рабочих нагрузок. В сотрудничестве с экспертами вы определяете критические метрики, сигналы тревоги и графики приоритизации для системы управления ИТ-инцидентами, чтобы ускорить восстановление в случае инцидента.

Управляемая политика AWS (AMS) помогает защитить информацию организации и ее инфраструктуру с помощью возможностей AWS по реагированию на инциденты и их разрешению. AMS можно использовать как способ передачи управления ИТ-инцидентами AWS на аутсорсинг, чтобы ваша организация могла сосредоточиться на основной деятельности. Благодаря AMS можно выполнять следующие действия.

  • Обращаться за помощью по операционным вопросам и запросам в любое время через Центр поддержки AWS в Консоли AWS.
  • Иметь доступ к круглосуточной поддержке (время ответа зависит от выбранного вами уровня обслуживания, например Plus или Premium).
  • Заранее получать уведомления о важных предупреждениях и вопросах, используя те же механизмы.

В рамках платформы AWS Well‑Architected мы также предоставляем четкие рекомендации по управлению инцидентами в облаке. Это хороший ресурс по планированию управления инцидентами для организаций, которые предлагают собственные ИТ-сервисы, но при этом используют облачные сервисы AWS. Руководство по реагированию на инциденты безопасности AWS – еще один полезный материал, который содержит информацию об инцидентах, связанных с безопасностью.

Создайте аккаунт и начните управлять инцидентами на AWS уже сегодня.

AWS: дальнейшие шаги

Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS.

Регистрация 
Начать разработку в консоли

Начните разработку в Консоли управления AWS.

Вход