什么是事件管理?
事件管理(IM)是 IT 团队用来应对计划外服务中断的流程。由于网络连接中断或降级、计划任务(如备份任务)未执行或 API 无响应等事件而导致意外中断。事件管理流程试图快速恢复 IT 服务的正常运行并最大限度地减少对业务的影响。在此流程中,团队会检测和调查事件,解决问题,并记录他们为恢复服务而采取的步骤。
为什么事件管理如此重要?
事件管理指导 IT 团队针对任何事件做出最合适的响应。事件管理会创建一个系统,因此 IT 团队可以获取所有相关详细信息以供进一步学习。可以将事件管理视为手册,用于快速恢复正常运营,同时最大限度地减少对内部和外部客户的干扰。
如果没有适当的系统,事件恢复不可避免地会导致重复的错误和资源的滥用,并对组织产生更严重的负面影响。接下来,我们将讨论如何从事件管理中受益。
减少事件发生率
通过在发生事件时仔细阅读手册,团队可以尽快解决事件。同时,随着时间的推移,事件管理还可以减少事件发生率。当您在 IM 流程的早期识别风险时,将来发生事故的几率就会降低。获取完整的事件取证有助于主动补救,并有助于防止以后再发生类似事件。
提高性能
在 IT 事件管理中使用有效而敏感的监控时,您可以识别并调查质量的较小幅度降低。还可以发现提高性能的新方法。随着时间的推移,IT 团队可以判断服务事件识别模式的质量,从而实现预测性补救和持续服务。
有效的协作
不同的团队通常必须协同工作进行事件恢复。可以通过概述事件响应框架内各方的沟通指南来显著改善协作。还可以更有效地管理利益相关者的情绪。
哪些事件需要事件管理?
事件管理一词并非仅仅用于 IT 领域。在 IT 之外,您还会在紧急服务、大型活动管理和工厂运营等领域听到 IM。
就本文而言,我们在 IT 服务管理(ITSM)的情境下提及 IM。在此情境中,事件管理侧重于与服务质量和客户服务本身有关的管理活动。
接下来,我们将讨论 ITSM 中 IM 范围内的不同 IT 事件。
事件
在事件管理中,事件可以定义为导致预期或商定的 IT 服务质量下降的意外事件。事件的规模可以很小,也可以很大,并且您可以指示严重程度。例如,服务质量的下降幅度可能微乎其微,并且仅限于特定的地理位置。或者,该服务可能会在多个区域出现完全中断。
问题
问题是指事件的根本原因,该原因在进一步调查后发现,是全面解决事件所必需的条件。例如,如果 Web 服务器运行缓慢,则问题可能是数据中心的路由器配置错误或外围的网络电缆被切断。
更改
在 IM 中,更改是指服务本身为了提高质量或添加新功能而发生变化(举例而言)。在更改期间,必须谨慎处理翻转,以避免或最大限度地减少对正常业务运营的干扰。这包括告知客户预期或潜在的服务中断。
服务请求
服务请求是客户在提供商-客户端协议条款的范围内发起的请求。应在不中断正常运营的情况下执行请求。
事件管理如何运作?
事件管理使用一组记录在案的流程,这些流程清楚地概述需要采取哪些措施来最大限度地减少 IT 中断的负面影响和持续时间。除了对问题进行技术管理外,事件管理还包括在事件期间管理客户、用户和利益相关者的期望。
对于客户,服务等级协议(SLA)明确规定了预期的正常运行时间保证、问题解决时间和事件的沟通渠道。该协议要求服务提供商进行全面的事件管理,以符合他们的 SLA 条款和条件。
IT 事件管理框架
组织使用各种框架来建模其 IM。两个示例是 IT 基础设施库(ITIT)4 的事件管理和美国国家标准与技术研究院(NIST)的网络安全框架。这些框架可以按原样使用,也可以进行扩展以适应独特的业务环境、服务以及客户和利益相关者的沟通标准。
事件管理软件通常用于在组织内部署框架。使用的确切框架取决于所提供的服务。
事件管理流程中有哪些步骤?
事件管理流程中涉及的步骤取决于组织内部使用的框架。接下来,我们将讨论许多常见事件管理生命周期框架中的主要步骤。
识别风险
识别关键资产、系统、数据和其他资源可确定企业面临的最严峻风险所在位置。在向客户提供服务方面,它涉及识别其最有价值的系统和资产。
保护资产
一旦识别资产,组织就会加强安全和性能控制。例如,可以跨多个区域部署应用程序,以便其在发生区域性服务中断时持续可用。
检测事件
必须建立系统来监控关键资产的状态,以便实时识别任何事件。组织必须积极主动地监控异常情况;通常组织不会希望首先从客户自己报告中断情况时得知故障。重点是主动补救。
响应事件
检测到事件后,必须立即停止任何中断。如果无法停止,则可以遵循流程来控制或限制其影响。可能还必须激活辅助系统,这样即使没有快速解决方案,也可以恢复运营。 其中大部分可能是自动化系统,具体取决于事件的性质和当前的事件管理工具。
从事件中恢复
在恢复阶段,开始对事件进行分析。可以吸取经验教训,制定改进的响应计划,以及修复问题和流程。重大事件可能需要执行大量的恢复工作。下图显示了 Amazon Web Services(AWS)使用的其中一种事件管理流程。
有哪些事件管理最佳实践?
最佳实践可帮助组织在给定的业务部门或战略领域内以最成熟的水平开展运营。通过遵循事件管理系统中的最佳实践,您可以为客户提供尽可能优秀的服务。
制定上报策略
您应该能够根据事件的优先级和严重性对其进行分类,以指导时间表、补救措施和调查活动。如果未按预期响应事件,或者发生高优先级或严重性的重大事件,您应该制定上报策略。如果没有这些策略,团队可能会浪费时间来决定应联系的人员和采取的行动。
详细规划沟通
应随时向利益相关者(从 IT 团队到最终用户)通报事件的状态。建立清晰的沟通渠道也极具价值,这样受影响的人员才能知道从何处获取最新消息或报告新事件。通过制定明确的沟通计划,您可以建立信任并避免错位的指责。重大事件总是通过外交手段来处理。
执行根本原因分析
解决事件后,您应该执行根本原因分析,以便首先了解事件发生的原因。这有助于识别系统中的缺口或漏洞,您可以解决这些缺口或漏洞,以防止将来发生类似事件。从每个事件中吸取的经验教训有助于持续改进 IT 基础设施和流程。
采用混沌工程实践
混沌工程是软件工程中的一门学科,其中系统会故意受到破坏性条件的影响,例如服务器故障、网络延迟或资源限制。在系统中制造混沌条件可测试其弹性,还可以增强组织的事件响应和管理流程。这种技术类似于在网络安全事件管理中部署道德黑客攻击。
AWS 如何支持您的事件管理要求?
AWS 提供了一系列服务,可帮助组织在 AWS 和混合环境中提供有效的事件管理。
AWS 事件检测和响应为 AWS 企业支持客户提供了对其所选工作负载的主动监控和事件管理。与专家合作,您可以为 IT 事件管理系统定义关键指标、警报和优先级排序时间表,以加快进行事件发生时的恢复。
AWS 托管服务 (AMS) 利用 AWS 事件响应和解决能力帮助保护您的组织的信息及其基础设施。AMS 可用作外包 AWS IT 事件管理的一种方式,这样组织就可以专注于核心业务。以下是可以使用 AMS 执行的任务:
-
随时通过 AWS 控制台中的 AWS Support Center 请求有关运营问题和要求的帮助
-
访问全天候支持,响应时间取决于您选择的账户服务套餐(Plus、Premium)
-
使用相同的机制接收有关重要提醒和问题的主动通知
作为 AWS 架构完善框架的一部分,我们还为云事件管理提供了明确的指导。对于使用 AWS 云服务提供自有 IT 服务的组织来说,这一良好的资源可以帮助其规划事件管理。AWS 安全事件响应指南是另一个有关安全事件的有用材料。
立即创建账户,开始在 AWS 上进行事件管理。