ما هي إدارة الحوادث؟

إدارة الحوادث (IM) هي العملية التي تستخدمها فرق تكنولوجيا المعلومات للاستجابة لانقطاع الخدمة غير المخطط له. تحدث الانقطاعات غير متوقعة في الخدمة بسبب حوادث عديدة، مثل فقدان اتصال الشبكة أو تدهوره، أو عدم تنفيذ مهمة مجدولة (مثل مهمة النسخ الاحتياطي)، أو عدم استجابة واجهة برمجة التطبيقات. تحاول عملية إدارة الحوادث استعادة التشغيل المنتظم لخدمة تكنولوجيا المعلومات بسرعة وتقليل مدى تأثُّر الأعمال. في هذه العملية، يكتشف الفريق الحوادث ويحقق فيها ويحل المشاكل، ويوثق الخطوات المتخذة لاستعادة الخدمة.

ما هي الأحداث التي تتطلب إدارة الحوادث؟

لا يتم استخدام مصطلح إدارة الحوادث حصريًا في مجال تكنولوجيا المعلومات. خارج مجال تكنولوجيا المعلومات، هذا المصطلح شائع في مجالات مثل خدمات الطوارئ وإدارة الأحداث واسعة النطاق وعمليات المصانع.

لغرض هذه المقالة، نشير إلى إدارة الحوادث في سياق إدارة خدمات تكنولوجيا المعلومات (ITSM). في هذا السياق، تركز إدارة الحوادث على أنشطة الإدارة المتعلقة بجودة الخدمة وخدمة العملاء نفسها.

بعد ذلك، نناقش أحداث تكنولوجيا المعلومات المختلفة ضمن نطاق إدارة الحوادث في ITSM.

حادث

ضمن إدارة الحوادث، يمكن تعريف الحوادث على أنها أحداث غير متوقعة تتسبب في انخفاض جودة خدمة تكنولوجيا المعلومات المتوقعة أو المتفق عليها. يمكن أن يكون حجم الحادث صغيرًا أو كبيرًا، ويمكن الإشارة إلى درجة خطورته. على سبيل المثال، يمكن أن يكون الانخفاض في جودة الخدمة ضئيلًا ومقتصرًا على موقع جغرافي محدد. أو قد تواجه الخدمة انقطاعًا تامًا في العديد من المناطق.

مشكلة

تشير المشكلة إلى السبب الأساسي الذي أدّى إلى وقوع الحادث، والذي يتم اكتشافه بعد مزيد من التحقيق وهو ضروري لحل الحادث بالكامل. على سبيل المثال، إذا كان خادم الويب يعمل ببطء، فقد تكون المشكلة في التكوين الخاطئ لجهاز التوجيه في مركز البيانات أو كبل شبكة مقطوع في المحيط.

التغيير

في إدارة الحوادث، يشير التغيير إلى تغيير الخدمة نفسها لأغراض مثل تحسين الجودة أو إضافة ميزات جديدة. خلال فترة التغيير، يجب التعامل مع التمديد بعناية لتجنب تعطيل العمليات التجارية العادية أو الحدّ من تعطيلها. يتضمن ذلك إبلاغ العملاء بانقطاعات الخدمة المتوقعة أو المحتملة.

طلب خدمة

طلب الخدمة هو طلب يبادر به العميل ضمن حدود شروط اتفاقية الموفر والعميل. يجب تنفيذ الطلب بدون تعطيل العمليات العادية.

كيف تعمل إدارة الحوادث؟

تستخدم إدارة الحوادث مجموعة من العمليات الموثقة التي تحدد بوضوح الخطوات اللازمة لتقليل التأثير السلبي ومدة تعطل تكنولوجيا المعلومات. وبصرف النظر عن الإدارة الفنية للخطأ الذي حدث، فإنها تشمل أيضًا إدارة توقعات العملاء والمستخدمين وأصحاب المصلحة أثناء وقوع حادث.

بالنسبة إلى العملاء، تحدد اتفاقيات مستوى الخدمة (SLA) بوضوح ضمانات وقت التشغيل المتوقعة وأوقات الحل وقنوات الاتصال في حالة الحوادث. يتطلب الأمر إدارة شاملة للحوادث من جانب مزود الخدمة بهدف الوفاء بشروط وأحكام اتفاقية مستوى الخدمة.

اقرأ عن اتفاقيات مستوى الخدمة (SLAs) »

أطر إدارة حوادث تكنولوجيا المعلومات

هناك العديد من الأطر التي تستخدمها المؤسسات سعيًا لنمذجة إدارة الحوادث لديها. ومن الأمثلة على ذلك إدارة الحوادث من مكتبة البنية التحتية لتكنولوجيا المعلومات (ITIL) 4 وإطار الأمن السيبراني من المعهد الوطني للمعايير والتكنولوجيا (NIST). يمكن استخدام هذه الأطر كما هي أو توسيعها للتكيف مع بيئات الأعمال الفريدة والخدمات ومعايير الاتصالات من جانب العملاء وأصحاب المصلحة.

غالبًا ما يتم استخدام برنامج إدارة الحوادث لنشر إطار عمل داخل المؤسسة. يعتمد الإطار الدقيق المستخدم على الخدمات المقدمة.

 

ما هي الخطوات في عملية إدارة الحوادث؟

تعتمد الخطوات المتبعة في عمليات إدارة الحوادث على الإطار المستخدم داخل المنظمة. بعد ذلك، نناقش الخطوات الرئيسية في العديد من أطر دورة حياة إدارة الحوادث الشائعة.

تحديد المخاطر

تحديد الأصول الهامة والأنظمة والبيانات والموارد الأخرى يحدد أكبر المخاطر في الشركة. في سياق تقديم الخدمات للعملاء، فهذه العملية تتطلب تحديد أنظمتهم وأصولهم الأكثر قيمة.

حماية الأصول

بمجرد تحديد الأصول، تعزّز المؤسسات ضوابط الأمان والأداء. على سبيل المثال، يمكن نشر تطبيق على عدة مناطق لضمان توافره المستمر في حال حدوث أي انقطاعات إقليمية. 

اكتشاف الحوادث

يجب أن تكون الأنظمة جاهزة لمراقبة حالة الأصول الهامة لكي يكون من الممكن تحديد أي حوادث في الوقت الفعلي. يجب أن تكون المؤسسات استباقية في مراقبة الحالات الشاذة، فمن غير المستحسن عادةً المعرفة بحدوث انقطاع الخدمة أولاً من عميل يبلّغ بالانقطاع بنفسه. وبالتالي، يجب التركيز على العلاج الاستباقي.

الاستجابة للحوادث

بمجرد اكتشاف وقوع الحادث، يجب إيقاف أي تعطّل على الفور. إذا لم يكن ذلك ممكنًا، يمكنك اتباع عملية لاحتواء التأثير أو الحد منه. قد تضطر أيضًا إلى تفعيل الأنظمة الثانوية لاستئناف العمليات حتى إذا لم يكن هناك حل سريع.  قد تكون الكثير من هذه الإجراءات مؤتمتة، وفقًا لطبيعة الحادث وأدوات إدارة الحوادث الحالية.

التعافي من الحوادث

في مرحلة الاسترداد، يبدأ تحليل الحادث. يمكنك تعلّم بعض الدروس المستفادة، وصياغة خطط استجابة محسنة، ومعالجة المشاكل والعمليات. قد تحتاج الحوادث الكبرى إلى جهود استرداد كبيرة. تعرض الصورة التالية إحدى عمليات إدارة الحوادث التي تستخدمها Amazon Web Services (AWS).

ما هي أفضل ممارسات إدارة الحوادث؟

باتّباع أفضل الممارسات، تستطيع المؤسسات العمل على المستوى الأكثر نضجًا داخل وحدة أعمال أو منطقة استراتيجية معينة. من خلال اتباع أفضل الممارسات في أنظمة إدارة الحوادث، يمكنك تقديم أفضل خدمة ممكنة لعملائك.

تطوير سياسات التصعيد

يجب أن تكون قادرًا على تصنيف الحوادث وفقًا لأولويتها وشدتها بهدف توجيه الجداول الزمنية والعلاجات والتحقيقات. عليك وضع سياسات التصعيد عندما لا تسير الاستجابة للحوادث وفق التوقعات أو في حالة وقوع حادث كبير ذي أولوية أو خطورة عالية. بدون هذه السياسات، قد يضيّع فريقك الوقت في تحديد الشخص الذي يجب التواصل به والإجراءات التي يجب اتخاذها.

تخطيط الاتصالات بالتفصيل

يجب إبقاء أصحاب المصلحة، من فريق تكنولوجيا المعلومات إلى المستخدمين النهائيين، على علم بحالة الحوادث. من المهم أيضًا أن تكون لديك قنوات اتصال واضحة حتى يعرف المتأثرون الجهة التي يمكنهم الرجوع إليها لمعرفة التحديثات أو للإبلاغ عن الحوادث الجديدة. من خلال وضع خطط اتصال واضحة، يمكنك بناء الثقة وتجنب اللوم في غير محله. يتم التعامل مع الحوادث الخطيرة دائمًا بدبلوماسية. 

إجراء تحليل السبب الجذري

بعد حل الحادث، يجب إجراء تحليل السبب الجذري لفهم سبب وقوع الحادث في المقام الأول. يساعد ذلك في تحديد الفجوات أو الثغرات الأمنية في النظام، والتي يمكنك معالجتها لمنع وقوع حوادث مماثلة في المستقبل. الدروس المستفادة من كل حادثة مفيدة في تحسين البنية التحتية وعمليات تكنولوجيا المعلومات باستمرار.

اعتماد ممارسات هندسة الفوضى

هندسة الفوضى هي تخصص في هندسة البرمجيات حيث تتعرض الأنظمة عمدًا لظروف تخريبية، مثل أعطال في الخادم، أو بطء وقت استجابة الشبكة، أو عدم توفّر موارد كافية. إنّ إحداث الفوضى في الأنظمة يختبر مرونتها ويحسّن أيضًا الاستجابة للحوادث وعمليات الإدارة في المؤسسة. هذه تقنية مشابهة لنشر القرصنة الأخلاقية في إدارة حوادث الأمن السيبراني.

كيف يمكن أن تدعم AWS متطلبات إدارة الحاويات؟

تقدم AWS مجموعة من الخدمات التي تساعد المؤسسات على إدارة الحوادث بفعالية داخل AWS والبيئات المختلطة.

بفضل الوظيفة اكتشاف الحوادث والاستجابة لها في AWS، يستفيد عملاء دعم الشركات من AWS من مراقبة استباقية وإدارة للحوادث في أعباء العمل المحددة لديهم. من خلال العمل مع الخبراء، يمكنك تحديد المقاييس الهامة والإنذارات وجداول تحديد الأولويات لنظام إدارة حوادث تكنولوجيا المعلومات بهدف تسريع وتيرة التعافي في حالة وقوع حادث.

تساعد خدمات المُدارة من AWS‏ (AMS) على حماية معلومات مؤسستك، بالإضافة إلى بنيتها التحتية، من خلال قدرات AWS للاستجابة للحوادث وحلها. يمكن استخدام AMS كطريقة للاستعانة بمصادر خارجية بهدف إدارة حوادث تكنولوجيا المعلومات في AWS، حتى تتمكن مؤسستك من التركيز على الأعمال الأساسية. إليك ما يمكنك القيام به باستخدام AMS:

  • اطلب المساعدة بشأن المشاكل التشغيلية والطلبات في أي وقت من خلال مركز دعم AWS في وحدة تحكم AWS
  • تمكّن من الوصول إلى الدعم على مدار الساعة طوال أيام الأسبوع مع وقت استجابة يعتمد على فئة خدمة حسابك المحدد (Plus وPremium)
  • احصل على إشعارات استباقية بالتنبيهات والأسئلة المهمة باستخدام الآليات نفسها

وكجزء من إطار AWS Well-Architected Framework، نقدم أيضًا إرشادات واضحة لإدارة الحوادث السحابية. هذا الإطار هو مورد جيد يوضّح آلية التخطيط لإدارة الحوادث في المؤسسات التي تقدم خدمات تكنولوجيا المعلومات الخاصة بها والتي تستخدم خدمات AWS السحابية. إنّ دليل الاستجابة لحوادث أمان AWS هو مورد آخر مفيد للاستجابة للحوادث المتعلقة بالأمان.

ابدأ استخدام إدارة مفتاح واجهة برمجة التطبيقات على AWS من خلال إنشاء حساب اليوم.

الخطوات التالية مع AWS

التحقق من الموارد الإضافية المتعلقة بالمنتج
تعرّف على خدمات الإدارة والحوكمة  
سجِّل الاشتراك للحصول على حساب مجاني

تمتع بالوصول الفوري إلى الطبقة المجانية من AWS.

تسجيل الاشتراك 
ابدأ في التطوير في وحدة التحكم

بدء الإنشاء في وحدة إدارة تحكم AWS.

تسجيل الدخول