การจัดการเหตุการณ์คืออะไร
การจัดการเหตุการณ์ (IM) เป็นกระบวนการที่ทีมไอทีใช้ในการตอบสนองต่อการหยุดชะงักของการบริการที่ไม่ได้วางแผนไว้ การหยุดชะงักที่ไม่คาดคิดเกิดขึ้นเนื่องจากเหตุการณ์ต่างๆ เช่น การสูญเสียหรือการลดประสิทธิภาพของการเชื่อมต่อเครือข่าย งานตามกำหนดการ (เช่น งานสำรองข้อมูล) ที่ไม่ได้ดำเนินการ หรือ API ที่ไม่ตอบสนอง กระบวนการจัดการเหตุการณ์พยายามที่จะเรียกคืนการดำเนินงานตามปกติของบริการไอทีโดยเร็ว และลดผลกระทบทางธุรกิจ ระหว่างกระบวนการ ทีมตรวจพบและตรวจสอบเหตุการณ์ต่างๆ แก้ไขปัญหา และบันทึกขั้นตอนที่พวกเขาใช้ในการกู้บริการกลับมา
เหตุการณ์ใดบ้างที่จำเป็นต้องมีการจัดการเหตุการณ์
คำว่าการจัดการเหตุการณ์ไม่ได้ใช้เฉพาะในงานด้านไอทีเท่านั้น นอกเหนือจากงานด้านไอที คุณจะได้ยินคำว่า IM ในงานสาขาต่างๆ เช่น บริการฉุกเฉิน การจัดการเหตุการณ์ขนาดใหญ่ และการปฏิบัติงานในโรงงาน
สำหรับบทความนี้ เราจะใช้คำว่า IM โดยหมายถึงภายในบริบทของการจัดการบริการไอที (ITSM) ในบริบทนี้ การจัดการเหตุการณ์จะมุ่งเน้นไปที่กิจกรรมการจัดการที่เกี่ยวข้องกับคุณภาพของบริการและการบริการลูกค้า
ในลำดับต่อไป เราจะพูดคุยเกี่ยวกับกิจกรรมด้านไอทีต่างๆ ภายในขอบเขตของ IM ใน ITSM
เหตุการณ์ที่เกิดขึ้น
ภายในการจัดการเหตุการณ์ เราสามารถกำหนดเหตุการณ์เป็นเหตุการณ์ที่ไม่คาดคิดซึ่งทำให้คุณภาพของบริการด้านไอทีที่คาดหวังหรือที่ตกลงกันไว้ลดลง ขนาดของเหตุการณ์อาจเล็กหรือใหญ่ก็ได้ และคุณอาจบ่งบอกถึงภาวะวิกฤตได้ ตัวอย่างเช่น คุณภาพของบริการที่ลดลงอาจเกิดขึ้นเพียงเล็กน้อยและจำกัดอยู่ในสถานที่ตั้งทางภูมิศาสตร์แห่งใดแห่งหนึ่ง หรือบริการอาจเกิดการขัดข้องทั้งระบบในหลายภูมิภาค
ปัญหา
ปัญหาหมายถึงสาเหตุที่แท้จริงของเหตุการณ์ ซึ่งค้นพบหลังจากการสอบสวนเพิ่มเติม และจำเป็นสำหรับการแก้ไขทั้งเหตุการณ์ ตัวอย่างเช่น หากเว็บเซิร์ฟเวอร์ทำงานช้า ปัญหาอาจเป็นเพราะการกำหนดค่าเราเตอร์ไม่ถูกต้องที่ศูนย์ข้อมูลหรือสายเคเบิลเครือข่ายขาดที่บริเวณขอบเขต
การเปลี่ยนแปลง
ใน IM การเปลี่ยนแปลงหมายถึงเมื่อกำลังเปลี่ยนแปลงบริการเพื่อปรับปรุงคุณภาพหรือเพิ่มคุณสมบัติใหม่ๆ เป็นต้น ในช่วงระยะเวลาการเปลี่ยนแปลง จะต้องจัดการการเปลี่ยนผ่านอย่างระมัดระวังเพื่อหลีกเลี่ยงหรือลดการหยุดชะงักในการดำเนินธุรกิจตามปกติ ซึ่งรวมถึงการให้คำแนะนำแก่ลูกค้าเกี่ยวกับการหยุดชะงักของบริการที่คาดไว้หรือที่อาจเกิดขึ้นได้
คำขอรับบริการ
คำขอรับบริการคือคำขอที่เริ่มโดยลูกค้าภายในขอบเขตของข้อกำหนดข้อตกลงระหว่างผู้ให้บริการและลูกค้า คำขอดังกล่าวควรได้รับการดำเนินการโดยไม่กระทบต่อการดำเนินงานตามปกติ
การจัดการเหตุการณ์ทำงานอย่างไร
การจัดการเหตุการณ์ใช้ชุดกระบวนการที่บันทึกไว้ ซึ่งสรุปอย่างชัดเจนถึงสิ่งที่ต้องดำเนินการเพื่อลดผลกระทบในแง่ลบและระยะเวลาที่งานไอทีหยุดชะงัก นอกเหนือจากการจัดการด้านเทคนิคสำหรับเหตุการณ์ผิดปกติที่เกิดขึ้นแล้ว ยังรวมถึงการจัดการความคาดหวังของลูกค้า ผู้ใช้ และผู้มีส่วนเกี่ยวกับในระหว่างที่เกิดเหตุการณ์อีกด้วย
สำหรับลูกค้า ข้อตกลงระดับการให้บริการ (SLA) จะระบุการรับประกันเวลาทำงานที่คาดหวังได้ เวลาในการแก้ไขปัญหา และช่องทางการสื่อสารในกรณีที่เกิดเหตุการณ์ต่างๆ ไว้อย่างชัดเจน โดยจะต้องมีการจัดการเหตุการณ์ที่ครอบคลุมในส่วนของผู้ให้บริการ เพื่อให้เป็นไปตามข้อกำหนดและเงื่อนไขใน SLA
เฟรมเวิร์กการจัดการเหตุการณ์ด้านไอที
มีเฟรมเวิร์กต่างๆ ที่องค์กรใช้เพื่อจำลอง IM ของตนเอง 2 ตัวอย่าง ได้แก่ การจัดการเหตุการณ์จาก IT Infrastructure Library (ITIL) 4 และเฟรมเวิร์กการรักษาความปลอดภัยทางไซเบอร์จาก National Institute of Standards and Technology (NIST) คุณอาจนำเฟรมเวิร์กเหล่านี้มาใช้ตามที่มีอยู่หรือขยายเพื่อปรับให้เข้ากับสภาพแวดล้อมทางธุรกิจ บริการ และมาตรฐานการสื่อสารของลูกค้าและผู้มีส่วนเกี่ยวข้อง
ซอฟต์แวร์การจัดการเหตุการณ์มักนำมาใช้เพื่อปรับใช้เฟรมเวิร์กภายในองค์กร ส่วนจะใช้เฟรมเวิร์กใดนั้น ก็ขึ้นอยู่กับบริการที่นำเสนอ
ขั้นตอนในกระบวนการจัดการเหตุการณ์มีอะไรบ้าง
ขั้นตอนที่เกี่ยวข้องกับกระบวนการจัดการเหตุการณ์นั้นจะขึ้นอยู่กับเฟรมเวิร์กที่ใช้ภายในองค์กร ในลำดับต่อไป เราจะพูดคุยเกี่ยวกับขั้นตอนหลักๆ ในเฟรมเวิร์กวงจรการจัดการเหตุการณ์ที่พบได้บ่อย
ระบุความเสี่ยง
การระบุแอสเซท ระบบ ข้อมูล และทรัพยากรอื่นๆ ที่สำคัญจะเป็นการบ่งชี้ว่าจุดใดที่ธุรกิจมีความเสี่ยงมากที่สุด ในบริบทของการให้บริการแก่ลูกค้า จะเป็นการระบุระบบและแอสเซทที่มีค่าที่สุดของลูกค้า
ปกป้องแอสเซท
เมื่อระบุแอสเซทแล้ว องค์กรจะเสริมการรักษาความปลอดภัยและการควบคุมประสิทธิภาพให้แข็งแกร่งยิ่งขึ้น ตัวอย่างเช่น สามารถติดตั้งใช้งานแอปพลิเคชันได้ในหลายภูมิภาคเพื่อความพร้อมใช้งานอย่างต่อเนื่องในกรณีที่ระบบขัดข้องในระดับภูมิภาค
ตรวจจับเหตุการณ์
ต้องมีระบบในการติดตามสถานะของแอสเซทที่สำคัญเพื่อให้สามารถระบุเหตุการณ์ได้แบบเรียลไทม์ องค์กรจะต้องดำเนินการเชิงรุกในการติดตามความผิดปกติ ซึ่งโดยปกติแล้วไม่แนะนำให้เรียนรู้จากเหตุการณ์ขัดข้องที่ลูกค้ารายงานมาเอง ควรเน้นไปที่การแก้ไขเชิงรุก
ตอบสนองต่อเหตุการณ์ที่เกิดขึ้น
เมื่อตรวจพบเหตุการณ์แล้ว คุณจะต้องระงับการหยุดชะงักนั้นทันที หากไม่สามารถทำได้ คุณสามารถปฏิบัติตามกระบวนการเพื่อตีกรอบหรือจำกัดผลกระทบที่เกิดขึ้น คุณอาจต้องเปิดใช้งานระบบรองเพื่อให้สามารถดำเนินงานต่อได้แม้ว่าจะไม่มีวิธีแก้ไขอย่างเร่งด่วนก็ตาม ส่วนใหญ่อาจเป็นไปโดยอัตโนมัติ ทั้งนี้ขึ้นอยู่กับลักษณะของเหตุการณ์และเครื่องมือการจัดการเหตุการณ์ที่ใช้อยู่ในปัจจุบัน
กู้คืนจากเหตุการณ์ที่เกิดขึ้น
ในระยะการกู้คืน จะเริ่มทำการวิเคราะห์เหตุการณ์ คุณบันทึกบทเรียนที่ได้เรียนรู้ วางแผนการตอบสนองที่ดียิ่งขึ้น และแก้ไขปัญหาและกระบวนการต่างๆ เหตุการณ์ร้ายแรงอาจต้องใช้ความพยายามอย่างมากในการกู้คืน รูปภาพต่อไปนี้แสดงให้เห็นถึงหนึ่งในกระบวนการจัดการเหตุการณ์ที่ Amazon Web Services (AWS) ใช้
แนวทางปฏิบัติที่ดีที่สุดในการจัดการเหตุการณ์มีอะไรบ้าง
แนวปฏิบัติที่ดีที่สุดช่วยให้องค์กรดำเนินงานในระดับที่มีศักยภาพสูงสุดภายในหน่วยธุรกิจหรือพื้นที่เชิงกลยุทธ์ที่กำหนด เมื่อปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดในระบบการจัดการเหตุการณ์ คุณจะสามารถให้บริการที่ดีที่สุดแก่ลูกค้าได้
พัฒนานโยบายการยกระดับ
คุณควรสามารถจัดหมวดหมู่เหตุการณ์ต่างๆ ตามลำดับความสำคัญและความรุนแรงเพื่อเป็นแนวทางในการกำหนดกรอบเวลา การแก้ไข และการสืบสวน คุณควรใช้นโยบายการยกระดับเมื่อการตอบสนองต่อเหตุการณ์ไม่เป็นไปตามที่คาดไว้ หรือหากเกิดเหตุการณ์ร้ายแรงที่มีลำดับความสำคัญหรือความรุนแรงสูง หากไม่มีนโยบายเหล่านี้ ทีมของคุณอาจเสียเวลาในการตัดสินใจว่าจะติดต่อใครและจะทำอย่างไร
วางแผนการสื่อสารโดยละเอียด
ผู้มีส่วนเกี่ยวข้องตั้งแต่ทีมไอทีไปจนถึงผู้ใช้ปลายทางของคุณควรได้รับแจ้งเกี่ยวกับสถานะของเหตุการณ์ที่เกิดขึ้น การมีช่องทางการสื่อสารที่ชัดเจนก็เป็นประโยชน์เช่นกัน เพื่อให้ผู้ที่ได้รับผลกระทบรู้ว่าควรไปที่ใดเพื่อหาข้อมูลอัปเดตหรือรายงานเหตุการณ์ใหม่ๆ เมื่อมีแผนการสื่อสารที่ชัดเจน คุณจะสามารถสร้างความไว้วางใจและหลีกเลี่ยงการตำหนิที่ผิดพลาดได้ เหตุการณ์ที่สำคัญจะได้รับการจัดการด้วยระบบการทูตเสมอ
วิเคราะห์สาเหตุของปัญหา
หลังจากแก้ไขเหตุการณ์แล้ว คุณควรทำการวิเคราะห์สาเหตุที่แท้จริงเพื่อทำความเข้าใจว่าเหตุใดจึงเกิดเหตุการณ์ดังกล่าวขึ้นตั้งแต่แรก ซึ่งจะช่วยค้นหาช่องว่างหรือช่องโหว่ในระบบ ซึ่งคุณสามารถจัดการเพื่อป้องกันเหตุการณ์ที่คล้ายกันที่จะเกิดขึ้นในอนาคตได้ บทเรียนที่ได้เรียนรู้จากแต่ละเหตุการณ์มีประโยชน์ในการปรับปรุงโครงสร้างพื้นฐานและกระบวนการด้านไอทีอย่างต่อเนื่อง
นำแนวทางปฏิบัติด้านวิศวกรรมความโกลาหลมาใช้
วิศวกรรมความโกลาหล (Chaos Engineering) เป็นสาขาหนึ่งของวิศวกรรมซอฟต์แวร์ที่ตั้งใจทำให้ระบบอยู่ภายใต้สภาวะที่หยุดชะงัก เช่น เซิร์ฟเวอร์ล้มเหลว เวลาแฝงของเครือข่าย หรือข้อจำกัดของทรัพยากร การสร้างความโกลาหลในระบบจะทดสอบความยืดหยุ่น และยังเสริมสร้างความเข้มแข็งให้กับกระบวนการตอบสนองและการจัดการเหตุการณ์ขององค์กรอีกด้วย ซึ่งเป็นเทคนิคที่คล้ายกับการนำการแฮ็กอย่างมีจริยธรรมมาใช้ในการจัดการเหตุการณ์เกี่ยวกับความปลอดภัยทางไซเบอร์
AWS รองรับข้อกำหนดในการจัดการเหตุการณ์ของคุณได้อย่างไร
AWS มีบริการต่างๆ มากมายที่ช่วยให้องค์กรสามารถจัดการเหตุการณ์ได้อย่างมีประสิทธิภาพภายใน AWS และสภาพแวดล้อมแบบไฮบริด
การตรวจจับและการตอบสนองเหตุการณ์ของ AWS ช่วยให้ลูกค้า AWS Enterprise Support สามารถตรวจสอบในเชิงรุกและจัดการเหตุการณ์สำหรับเวิร์กโหลดที่เลือก ด้วยการทำงานร่วมกับผู้เชี่ยวชาญ คุณจะสามารถกำหนดเกณฑ์ชี้วัดที่สำคัญ การแจ้งเตือน และตารางการจัดลำดับความสำคัญสำหรับระบบการจัดการเหตุการณ์ด้านไอทีเพื่อเร่งการกู้คืนในกรณีที่เกิดเหตุการณ์ได้
AWS Managed Services (AMS) ช่วยปกป้องข้อมูลขององค์กร ตลอดจนโครงสร้างพื้นฐานของคุณด้วยความสามารถในการตอบสนองและแก้ไขเหตุการณ์ของ AWS คุณสามารถใช้ AMS เป็นวิธีในการว่าจ้างบุคคลภายนอกให้ดูแลจัดการเหตุการณ์ด้านไอทีของ AWS เพื่อที่องค์กรของคุณจะได้มุ่งเน้นไปที่ธุรกิจหลัก ต่อไปนี้คือสิ่งที่คุณสามารถทำได้ด้วย AMS
- ขอความช่วยเหลือเกี่ยวกับปัญหาการดำเนินงานและขอความช่วยเหลือได้ตลอดเวลาผ่าน AWS Support Center ในคอนโซล AWS
- เข้าถึงการสนับสนุนได้ตลอด 24 ชั่วโมงทุกวัน โดยที่เวลาตอบกลับจะขึ้นอยู่กับระดับบริการของบัญชีที่คุณเลือก (Plus, Premium)
- รับการแจ้งเตือนในเชิงรุกเกี่ยวกับสัญญาณเตือนและคำถามที่สำคัญโดยใช้กลไกเดียวกัน
ในฐานะส่วนหนึ่งของเฟรมเวิร์ก AWS Well-Architected เรายังให้คำแนะนำที่ชัดเจนสำหรับการจัดการเหตุการณ์บนระบบคลาวด์อีกด้วย ซึ่งเป็นแหล่งข้อมูลที่ดีในการช่วยวางแผนการจัดการเหตุการณ์สำหรับองค์กร โดยนำเสนอบริการด้านไอทีของตนเองที่ใช้บริการของ AWS Cloud คู่มือการตอบสนองต่อเหตุการณ์ด้านความปลอดภัยของ AWS เป็นอีกหนึ่งข้อมูลที่เป็นประโยชน์สำหรับเหตุการณ์ที่เกี่ยวข้องกับการรักษาความปลอดภัย
เริ่มต้นใช้งานการจัดการเหตุการณ์บน AWS โดยสร้างบัญชีวันนี้