Что такое управление инцидентами?

Темы страниц

Что такое управление инцидентами?
Почему важно управлять инцидентами?
Какие события требуют управления инцидентами?
Как работает управление инцидентами?
Из каких этапов состоит процесс управления инцидентами?
Каковы передовые практики управления инцидентами?
Как AWS может поддержать ваши требования к управлению инцидентами?

Что такое управление инцидентами?

Управление инцидентами (IM) – это процесс, который ИТ-команды используют для реагирования на незапланированные перерывы в обслуживании. Неожиданные сбои возникают из-за таких инцидентов, как потеря или ухудшение сетевого подключения, невыполнение запланированной задачи (например, резервного копирования) либо неработоспособность API. Процесс управления инцидентами направлен на быстрое восстановление нормальной работы ИТ-сервиса и минимизацию влияния на компанию. В ходе этого процесса команда обнаруживает и расследует инциденты, устраняет проблемы и документирует шаги, предпринятые для восстановления работы сервиса.

Почему важно управлять инцидентами?

Управление инцидентами помогает ИТ-командам наиболее эффективно реагировать на любой инцидент. Оно создает систему, в которой ИТ-команды могут фиксировать все необходимые детали для дальнейшего изучения. Управление инцидентами можно рассматривать как стратегическое руководство по восстановлению нормальной работы в кратчайшие сроки с минимальным ущербом для внутренних и внешних клиентов.

Без наличия соответствующих систем восстановление после инцидентов неизбежно приводит к повторным ошибкам, нецелевому использованию ресурсов и усилению негативного воздействия на организацию. Далее мы обсудим некоторые преимущества управления инцидентами.

Уменьшение количества инцидентов

Наличие стратегического руководства в случае возникновения инцидентов помогает командам устранять их в кратчайшие сроки. Вместе с тем управление инцидентами со временем снижает их количество. Если заранее выявлять риски в процессе управления инцидентами, снижается вероятность их возникновения в будущем. Сбор полной информации об инциденте способствует проактивному устранению последствий и помогает предотвратить возникновение подобных инцидентов в будущем.

Повышение производительности

При использовании эффективного и чувствительного мониторинга в управлении ИТ-инцидентами можно выявлять незначительные снижения качества и расследовать их. Вы также можете найти новые способы повышения производительности. Со временем ИТ-команда сможет оценить качество шаблонов идентификации инцидентов, что может обеспечить упреждающие исправления и непрерывное обслуживание.

Эффективное сотрудничество

Для восстановления работы после инцидента разным командам часто приходится сотрудничать. Вы можете значительно улучшить их совместную работу, если определите правила общения для всех сторон в рамках реагирования на инциденты. Вы также можете более эффективно управлять мнениями заинтересованных сторон.

Какие события требуют управления инцидентами?

Термин управление инцидентами используется не только в ИТ-сфере. За ее пределами с управлением инцидентами можно встретиться в таких областях, как аварийно-спасательные службы, управление крупными мероприятиями, эксплуатация предприятий.

В этой статье мы рассматриваем управление инцидентами в контексте управления ИТ-услугами (ITSM). В данном случае управление инцидентами сфокусировано на управленческой деятельности, касающейся качества обслуживания и собственно обслуживания клиентов.

Далее мы обсудим различные ИТ-события в рамках управления инцидентами в ITSM.

Инцидент

Инциденты в рамках управления инцидентами можно определить как непредвиденные события, которые приводят к снижению ожидаемого или согласованного качества ИТ-услуг. Масштаб инцидента может быть небольшим или большим, и можно указать степень критичности. Например, снижение качества обслуживания может быть минимальным и ограничиваться конкретным географическим положением, или сервис может полностью перестать работать во многих регионах.

Проблема

Под проблемой подразумевается основная причина инцидента, которая обнаруживается после дальнейшего расследования. Для полного разрешения инцидента необходимо найти проблему. Например, если веб-сервер работает медленно, проблема может заключаться в неправильной конфигурации маршрутизатора в центре обработки данных или в оборванном сетевом кабеле на периметре.

Изменение

В управлении инцидентами под изменением подразумевается изменение самой услуги, например в целях повышения качества или добавления новых функций. В период изменений необходимо быть аккуратными, чтобы избежать нарушения нормальной работы предприятия или свести его к минимуму. Сюда входит информирование клиентов об ожидаемых или потенциальных перебоях в обслуживании.

Запрос на обслуживание

Запрос на обслуживание – это инициированное клиентом обращение в рамках условий соглашения между ним и поставщиком. Запрос должен быть выполнен без нарушения нормальной работы.

Как работает управление инцидентами?

Для управления инцидентами используется набор документированных процессов, которые четко определяют, что необходимо сделать, чтобы минимизировать негативные последствия и продолжительность сбоев в работе ИТ. Помимо технического управления ошибками этот процесс также включает в себя управление ожиданиями клиентов, пользователей и заинтересованных сторон во время инцидента.

Для клиентов соглашения об уровне обслуживания (SLA) четко определяют ожидаемые гарантии непрерывной работы, время разрешения проблемы и каналы связи при возникновении инцидентов. Поэтому поставщику услуг необходимо комплексно управлять инцидентами, чтобы выполнить условия SLA.

Подробнее об SLA »

Платформы для управления ИТ-инцидентами

Существуют различные платформы, которые организации используют для моделирования методов управления инцидентами. Двумя примерами являются методы управления инцидентами из Библиотеки ИТ-инфраструктуры (ITIL) 4 и платформа кибербезопасности Национального института по стандартизации и технологии (NIST). Эти платформы можно использовать в существующем виде или в расширенном, адаптировав их к своей уникальной бизнес-среде, услугам, стандартам коммуникации с клиентами и заинтересованными сторонами.

Программное обеспечение для управления инцидентами часто используется, чтобы развернуть в организации платформу. Конкретно используемая платформа зависит от предлагаемых услуг.

Из каких этапов состоит процесс управления инцидентами?

Этапы процессов управления инцидентами зависят от структуры, используемой в организации. Далее мы обсудим основные этапы многих распространенных структур жизненных циклов управления инцидентами.

Определение риска

Идентификация критически важных ресурсов, систем, данных и других материалов определяет, в чем заключаются наибольшие риски для компании. В контексте предоставления услуг клиентам это также включает определение их наиболее ценных систем и ресурсов.

Защита ресурсов

После этапа идентификации ресурсов организации усиливают контроль безопасности и производительности. Например, для обеспечения постоянной доступности приложения в случае региональных сбоев оно может быть развернуто в нескольких регионах.

Обнаружение инцидентов

Чтобы можно было выявлять любые инциденты в режиме реального времени, необходимо создать системы мониторинга состояния критически важных ресурсов. Организации должны активно отслеживать нарушения и выявлять их первыми, а не узнавать о них от клиента, сообщившего об этом самостоятельно. Основное внимание уделяется упреждающим мерам по исправлению нарушений.

Реагирование на инциденты

Сразу же после обнаружения нарушения вы должны немедленно начать процесс восстановления работы. Если это невозможно, вы можете следовать процедуре, чтобы сдержать воздействие нарушений или ограничить его. Также может потребоваться задействовать вспомогательные системы, чтобы возобновить работу даже в случае отсутствия быстрого решения проблемы. Многие из этих процессов можно автоматизировать. Это зависит от характера инцидента и существующих средств управления им.

Восстановление после инцидентов

На этапе восстановления начинается анализ инцидента. Вы суммируете накопленный опыт, разрабатываете улучшенные планы реагирования, устраняете проблемы и отлаживаете процессы. Серьезные инциденты могут потребовать значительных усилий по восстановлению. На следующем рисунке показан один из процессов управления инцидентами, который использует Amazon Web Services (AWS).

Каковы передовые практики управления инцидентами?

Лучшие практики помогают организациям работать на самом высоком уровне в рамках определенного бизнес-подразделения или стратегической области. Следуя передовым практикам в системах управления инцидентами, вы можете предоставлять своим клиентам наилучший сервис.

Разработка стратегий эскалации

Вы должны иметь возможность классифицировать инциденты в соответствии с их приоритетом и серьезностью, чтобы определить сроки, меры по устранению неполадок и расследованию. Стратегии эскалации следует применять в следующих случаях: если реагирование на инциденты не оправдало ожиданий или если произошел серьезный инцидент высокой степени приоритетности либо серьезности. Без этих стратегий ваша команда может тратить время на то, чтобы решать, с кем связаться и что делать.

Составление подробного коммуникационного плана

Заинтересованные стороны, от ИТ-отдела до ваших конечных пользователей, должны быть в курсе инцидента. Также важно иметь четкие каналы связи, чтобы пострадавшие знали, куда обращаться за новой информацией или сообщать о новых инцидентах. Благодаря четкому коммуникационному плану вы сможете завоевать доверие и избежать ненужных обвинений. Критические инциденты всегда решаются дипломатическим путем.

Анализ первопричин

После устранения инцидента вам следует провести анализ первопричин, чтобы понять, почему инцидент вообще произошел. Это помогает выявить пробелы или уязвимости в системе, которые можно устранить, чтобы предотвратить подобные инциденты в будущем. Уроки, извлеченные из каждого инцидента, помогают постоянно совершенствовать ИТ-инфраструктуру и процессы.

Внедрение методов хаос‑инжиниринга

Хаос-инжиниринг – это дисциплина в области разработки программного обеспечения, в которой системы намеренно подвергаются деструктивным условиям, таким как сбои серверов, задержки в сети или ограничения ресурсов. Внедрение хаоса в системы проверяет их устойчивость, а также укрепляет процессы реагирования на инциденты и управления ими внутри организации. Этот метод аналогичен использованию этичного взлома при управлении инцидентами кибербезопасности.

Как AWS может поддержать ваши требования к управлению инцидентами?

AWS предлагает ряд сервисов, которые помогают организациям эффективно управлять инцидентами на AWS и в гибридных средах.

Сервис Обнаружение инцидентов AWS и реагирование на них предлагает клиентам Корпоративной поддержки AWS проактивный мониторинг и управление инцидентами для выбранных рабочих нагрузок. В сотрудничестве с экспертами вы определяете критические метрики, сигналы тревоги и графики приоритизации для системы управления ИТ-инцидентами, чтобы ускорить восстановление в случае инцидента.

Управляемая политика AWS (AMS) помогает защитить информацию организации и ее инфраструктуру с помощью возможностей AWS по реагированию на инциденты и их разрешению. AMS можно использовать как способ передачи управления ИТ-инцидентами AWS на аутсорсинг, чтобы ваша организация могла сосредоточиться на основной деятельности. Благодаря AMS можно выполнять следующие действия.

Обращаться за помощью по операционным вопросам и запросам в любое время через Центр поддержки AWS в Консоли AWS.
Иметь доступ к круглосуточной поддержке (время ответа зависит от выбранного вами уровня обслуживания, например Plus или Premium).
Заранее получать уведомления о важных предупреждениях и вопросах, используя те же механизмы.

В рамках платформы AWS Well‑Architected мы также предоставляем четкие рекомендации по управлению инцидентами в облаке. Это хороший ресурс по планированию управления инцидентами для организаций, которые предлагают собственные ИТ-сервисы, но при этом используют облачные сервисы AWS. Руководство по реагированию на инциденты безопасности AWS – еще один полезный материал, который содержит информацию об инцидентах, связанных с безопасностью.

Создайте аккаунт и начните управлять инцидентами на AWS уже сегодня.

Дальнейшие шаги на AWS

Дополнительные ресурсы к продукту

Подробнее о сервисах управления и администрирования

Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к Уровню бесплатного пользования AWS.

Регистрация

Начните разработку в консоли

Начните разработку в Консоли управления AWS.

Вход

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Загрузка

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

Что такое управление инцидентами?

Темы страниц

Что такое управление инцидентами?

Почему важно управлять инцидентами?

Уменьшение количества инцидентов

Повышение производительности

Эффективное сотрудничество

Какие события требуют управления инцидентами?

Инцидент

Проблема

Изменение

Запрос на обслуживание

Как работает управление инцидентами?

Платформы для управления ИТ-инцидентами

Из каких этапов состоит процесс управления инцидентами?

Определение риска

Защита ресурсов

Обнаружение инцидентов

Реагирование на инциденты

Восстановление после инцидентов

Каковы передовые практики управления инцидентами?

Разработка стратегий эскалации

Составление подробного коммуникационного плана

Анализ первопричин

Внедрение методов хаос‑инжиниринга

Как AWS может поддержать ваши требования к управлению инцидентами?

Дальнейшие шаги на AWS

Дополнительные ресурсы к продукту

Зарегистрировать бесплатный аккаунт

Начните разработку в консоли

Browse all cloud computing concepts

Did you find what you were looking for today?

Подробнее

Ресурсы

Разработчики

Поддержка