การจัดการเหตุการณ์คืออะไร

การจัดการเหตุการณ์ (IM) เป็นกระบวนการที่ทีมไอทีใช้ในการตอบสนองต่อการหยุดชะงักของการบริการที่ไม่ได้วางแผนไว้ การหยุดชะงักที่ไม่คาดคิดเกิดขึ้นเนื่องจากเหตุการณ์ต่างๆ เช่น การสูญเสียหรือการลดประสิทธิภาพของการเชื่อมต่อเครือข่าย งานตามกำหนดการ (เช่น งานสำรองข้อมูล) ที่ไม่ได้ดำเนินการ หรือ API ที่ไม่ตอบสนอง กระบวนการจัดการเหตุการณ์พยายามที่จะเรียกคืนการดำเนินงานตามปกติของบริการไอทีโดยเร็ว และลดผลกระทบทางธุรกิจ ระหว่างกระบวนการ ทีมตรวจพบและตรวจสอบเหตุการณ์ต่างๆ แก้ไขปัญหา และบันทึกขั้นตอนที่พวกเขาใช้ในการกู้บริการกลับมา

เหตุใดการจัดการเหตุการณ์จึงมีความสำคัญ

การจัดการเหตุการณ์จะเป็นแนวทางให้กับทีมไอทีเกี่ยวกับวิธีตอบสนองที่เหมาะสมที่สุดสำหรับเหตุการณ์ต่างๆ โดยสร้างระบบเพื่อให้ทีมไอทีสามารถบันทึกรายละเอียดที่เกี่ยวข้องทั้งหมดเพื่อเรียนรู้เพิ่มเติมในอนาคต คุณสามารถถือว่าการจัดการเหตุการณ์เป็นแนวทางในการกู้คืนการดำเนินงานตามปกติอย่างรวดเร็วที่สุดเท่าที่จะเป็นไปได้ โดยมีผลกระทบต่อทั้งลูกค้าภายในและภายนอกองค์กรน้อยที่สุด

หากไม่มีการเตรียมระบบไว้ การกู้คืนจากเหตุการณ์ย่อมนำไปสู่ข้อผิดพลาดซ้ำๆ มีการใช้ทรัพยากรในทางที่ผิด และส่งผลเสียต่อองค์กรมากขึ้นอย่างหลีกเลี่ยงไม่ได้ ในลำดับต่อไป เราจะพูดคุยเกี่ยวกับวิธีที่คุณจะได้รับประโยชน์จากการจัดการเหตุการณ์

ลดการเกิดอุบัติเหตุ

เมื่อมีแนวทางที่จะปฏิบัติตามในกรณีที่เกิดเหตุการณ์ ทีมงานจะสามารถแก้ไขเหตุการณ์ต่างๆ ได้โดยเร็วที่สุด ในขณะเดียวกัน การจัดการเหตุการณ์ยังช่วยลดการเกิดเหตุการณ์เมื่อเวลาผ่านไปอีกด้วย เมื่อคุณระบุความเสี่ยงตั้งแต่เนิ่นๆ ในกระบวนการ IM ก็จะช่วยลดโอกาสที่จะเกิดเหตุการณ์ในอนาคตได้ การบันทึกหลักฐานทางนิติวิทยาศาสตร์ของเหตุการณ์ไว้อย่างครบถ้วนจะช่วยในการแก้ไขเชิงรุก และช่วยป้องกันไม่ให้เหตุการณ์ที่คล้ายกันเกิดขึ้นในภายหลัง

ประสิทธิภาพการทำงานที่ดีขึ้น

เมื่อคุณใช้การตรวจสอบที่มีประสิทธิภาพและละเอียดอ่อนในการจัดการเหตุการณ์ด้านไอที คุณจะสามารถระบุและตรวจสอบคุณภาพที่ลดลงแม้เพียงเล็กน้อยได้ อีกทั้งคุณจะพบวิธีใหม่ๆ ในการปรับปรุงประสิทธิภาพให้ดียิ่งขึ้นอีกด้วย เมื่อเวลาผ่านไป ทีมไอทีของคุณจะสามารถตัดสินคุณภาพของรูปแบบการระบุเหตุการณ์ของบริการ ซึ่งนำไปสู่การแก้ไขเชิงคาดการณ์และการบริการอย่างต่อเนื่อง

การทำงานร่วมกันอย่างมีประสิทธิภาพ

ทีมต่างๆ มักต้องทำงานร่วมกันเพื่อกู้คืนจากเหตุการณ์ คุณสามารถปรับปรุงการทำงานร่วมกันให้มีประสิทธิภาพมากขึ้นได้โดยการสรุปแนวทางการสื่อสารสำหรับทุกฝ่ายภายในเฟรมเวิร์กการตอบสนองต่อเหตุการณ์ คุณยังสามารถจัดการความรู้สึกของผู้มีส่วนเกี่ยวข้องได้อย่างมีประสิทธิภาพมากขึ้นอีกด้วย

เหตุการณ์ใดบ้างที่จำเป็นต้องมีการจัดการเหตุการณ์

คำว่าการจัดการเหตุการณ์ไม่ได้ใช้เฉพาะในงานด้านไอทีเท่านั้น นอกเหนือจากงานด้านไอที คุณจะได้ยินคำว่า IM ในงานสาขาต่างๆ เช่น บริการฉุกเฉิน การจัดการเหตุการณ์ขนาดใหญ่ และการปฏิบัติงานในโรงงาน

สำหรับบทความนี้ เราจะใช้คำว่า IM โดยหมายถึงภายในบริบทของการจัดการบริการไอที (ITSM) ในบริบทนี้ การจัดการเหตุการณ์จะมุ่งเน้นไปที่กิจกรรมการจัดการที่เกี่ยวข้องกับคุณภาพของบริการและการบริการลูกค้า

ในลำดับต่อไป เราจะพูดคุยเกี่ยวกับกิจกรรมด้านไอทีต่างๆ ภายในขอบเขตของ IM ใน ITSM

เหตุการณ์ที่เกิดขึ้น

ภายในการจัดการเหตุการณ์ เราสามารถกำหนดเหตุการณ์เป็นเหตุการณ์ที่ไม่คาดคิดซึ่งทำให้คุณภาพของบริการด้านไอทีที่คาดหวังหรือที่ตกลงกันไว้ลดลง ขนาดของเหตุการณ์อาจเล็กหรือใหญ่ก็ได้ และคุณอาจบ่งบอกถึงภาวะวิกฤตได้ ตัวอย่างเช่น คุณภาพของบริการที่ลดลงอาจเกิดขึ้นเพียงเล็กน้อยและจำกัดอยู่ในสถานที่ตั้งทางภูมิศาสตร์แห่งใดแห่งหนึ่ง หรือบริการอาจเกิดการขัดข้องทั้งระบบในหลายภูมิภาค

ปัญหา

ปัญหาหมายถึงสาเหตุที่แท้จริงของเหตุการณ์ ซึ่งค้นพบหลังจากการสอบสวนเพิ่มเติม และจำเป็นสำหรับการแก้ไขทั้งเหตุการณ์ ตัวอย่างเช่น หากเว็บเซิร์ฟเวอร์ทำงานช้า ปัญหาอาจเป็นเพราะการกำหนดค่าเราเตอร์ไม่ถูกต้องที่ศูนย์ข้อมูลหรือสายเคเบิลเครือข่ายขาดที่บริเวณขอบเขต

การเปลี่ยนแปลง

ใน IM การเปลี่ยนแปลงหมายถึงเมื่อกำลังเปลี่ยนแปลงบริการเพื่อปรับปรุงคุณภาพหรือเพิ่มคุณสมบัติใหม่ๆ เป็นต้น ในช่วงระยะเวลาการเปลี่ยนแปลง จะต้องจัดการการเปลี่ยนผ่านอย่างระมัดระวังเพื่อหลีกเลี่ยงหรือลดการหยุดชะงักในการดำเนินธุรกิจตามปกติ ซึ่งรวมถึงการให้คำแนะนำแก่ลูกค้าเกี่ยวกับการหยุดชะงักของบริการที่คาดไว้หรือที่อาจเกิดขึ้นได้

คำขอรับบริการ

คำขอรับบริการคือคำขอที่เริ่มโดยลูกค้าภายในขอบเขตของข้อกำหนดข้อตกลงระหว่างผู้ให้บริการและลูกค้า คำขอดังกล่าวควรได้รับการดำเนินการโดยไม่กระทบต่อการดำเนินงานตามปกติ

การจัดการเหตุการณ์ทำงานอย่างไร

การจัดการเหตุการณ์ใช้ชุดกระบวนการที่บันทึกไว้ ซึ่งสรุปอย่างชัดเจนถึงสิ่งที่ต้องดำเนินการเพื่อลดผลกระทบในแง่ลบและระยะเวลาที่งานไอทีหยุดชะงัก นอกเหนือจากการจัดการด้านเทคนิคสำหรับเหตุการณ์ผิดปกติที่เกิดขึ้นแล้ว ยังรวมถึงการจัดการความคาดหวังของลูกค้า ผู้ใช้ และผู้มีส่วนเกี่ยวกับในระหว่างที่เกิดเหตุการณ์อีกด้วย

สำหรับลูกค้า ข้อตกลงระดับการให้บริการ (SLA) จะระบุการรับประกันเวลาทำงานที่คาดหวังได้ เวลาในการแก้ไขปัญหา และช่องทางการสื่อสารในกรณีที่เกิดเหตุการณ์ต่างๆ ไว้อย่างชัดเจน โดยจะต้องมีการจัดการเหตุการณ์ที่ครอบคลุมในส่วนของผู้ให้บริการ เพื่อให้เป็นไปตามข้อกำหนดและเงื่อนไขใน SLA

อ่านเกี่ยวกับ SLA”

เฟรมเวิร์กการจัดการเหตุการณ์ด้านไอที

มีเฟรมเวิร์กต่างๆ ที่องค์กรใช้เพื่อจำลอง IM ของตนเอง 2 ตัวอย่าง ได้แก่ การจัดการเหตุการณ์จาก IT Infrastructure Library (ITIL) 4 และเฟรมเวิร์กการรักษาความปลอดภัยทางไซเบอร์จาก National Institute of Standards and Technology (NIST) คุณอาจนำเฟรมเวิร์กเหล่านี้มาใช้ตามที่มีอยู่หรือขยายเพื่อปรับให้เข้ากับสภาพแวดล้อมทางธุรกิจ บริการ และมาตรฐานการสื่อสารของลูกค้าและผู้มีส่วนเกี่ยวข้อง

ซอฟต์แวร์การจัดการเหตุการณ์มักนำมาใช้เพื่อปรับใช้เฟรมเวิร์กภายในองค์กร ส่วนจะใช้เฟรมเวิร์กใดนั้น ก็ขึ้นอยู่กับบริการที่นำเสนอ

ขั้นตอนในกระบวนการจัดการเหตุการณ์มีอะไรบ้าง

ขั้นตอนที่เกี่ยวข้องกับกระบวนการจัดการเหตุการณ์นั้นจะขึ้นอยู่กับเฟรมเวิร์กที่ใช้ภายในองค์กร ในลำดับต่อไป เราจะพูดคุยเกี่ยวกับขั้นตอนหลักๆ ในเฟรมเวิร์กวงจรการจัดการเหตุการณ์ที่พบได้บ่อย

ระบุความเสี่ยง

การระบุแอสเซท ระบบ ข้อมูล และทรัพยากรอื่นๆ ที่สำคัญจะเป็นการบ่งชี้ว่าจุดใดที่ธุรกิจมีความเสี่ยงมากที่สุด ในบริบทของการให้บริการแก่ลูกค้า จะเป็นการระบุระบบและแอสเซทที่มีค่าที่สุดของลูกค้า

ปกป้องแอสเซท

เมื่อระบุแอสเซทแล้ว องค์กรจะเสริมการรักษาความปลอดภัยและการควบคุมประสิทธิภาพให้แข็งแกร่งยิ่งขึ้น ตัวอย่างเช่น สามารถติดตั้งใช้งานแอปพลิเคชันได้ในหลายภูมิภาคเพื่อความพร้อมใช้งานอย่างต่อเนื่องในกรณีที่ระบบขัดข้องในระดับภูมิภาค

ตรวจจับเหตุการณ์

ต้องมีระบบในการติดตามสถานะของแอสเซทที่สำคัญเพื่อให้สามารถระบุเหตุการณ์ได้แบบเรียลไทม์ องค์กรจะต้องดำเนินการเชิงรุกในการติดตามความผิดปกติ ซึ่งโดยปกติแล้วไม่แนะนำให้เรียนรู้จากเหตุการณ์ขัดข้องที่ลูกค้ารายงานมาเอง ควรเน้นไปที่การแก้ไขเชิงรุก

ตอบสนองต่อเหตุการณ์ที่เกิดขึ้น

เมื่อตรวจพบเหตุการณ์แล้ว คุณจะต้องระงับการหยุดชะงักนั้นทันที หากไม่สามารถทำได้ คุณสามารถปฏิบัติตามกระบวนการเพื่อตีกรอบหรือจำกัดผลกระทบที่เกิดขึ้น คุณอาจต้องเปิดใช้งานระบบรองเพื่อให้สามารถดำเนินงานต่อได้แม้ว่าจะไม่มีวิธีแก้ไขอย่างเร่งด่วนก็ตาม ส่วนใหญ่อาจเป็นไปโดยอัตโนมัติ ทั้งนี้ขึ้นอยู่กับลักษณะของเหตุการณ์และเครื่องมือการจัดการเหตุการณ์ที่ใช้อยู่ในปัจจุบัน

กู้คืนจากเหตุการณ์ที่เกิดขึ้น

ในระยะการกู้คืน จะเริ่มทำการวิเคราะห์เหตุการณ์ คุณบันทึกบทเรียนที่ได้เรียนรู้ วางแผนการตอบสนองที่ดียิ่งขึ้น และแก้ไขปัญหาและกระบวนการต่างๆ เหตุการณ์ร้ายแรงอาจต้องใช้ความพยายามอย่างมากในการกู้คืน รูปภาพต่อไปนี้แสดงให้เห็นถึงหนึ่งในกระบวนการจัดการเหตุการณ์ที่ Amazon Web Services (AWS) ใช้

แนวทางปฏิบัติที่ดีที่สุดในการจัดการเหตุการณ์มีอะไรบ้าง

แนวปฏิบัติที่ดีที่สุดช่วยให้องค์กรดำเนินงานในระดับที่มีศักยภาพสูงสุดภายในหน่วยธุรกิจหรือพื้นที่เชิงกลยุทธ์ที่กำหนด เมื่อปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดในระบบการจัดการเหตุการณ์ คุณจะสามารถให้บริการที่ดีที่สุดแก่ลูกค้าได้

พัฒนานโยบายการยกระดับ

คุณควรสามารถจัดหมวดหมู่เหตุการณ์ต่างๆ ตามลำดับความสำคัญและความรุนแรงเพื่อเป็นแนวทางในการกำหนดกรอบเวลา การแก้ไข และการสืบสวน คุณควรใช้นโยบายการยกระดับเมื่อการตอบสนองต่อเหตุการณ์ไม่เป็นไปตามที่คาดไว้ หรือหากเกิดเหตุการณ์ร้ายแรงที่มีลำดับความสำคัญหรือความรุนแรงสูง หากไม่มีนโยบายเหล่านี้ ทีมของคุณอาจเสียเวลาในการตัดสินใจว่าจะติดต่อใครและจะทำอย่างไร

วางแผนการสื่อสารโดยละเอียด

ผู้มีส่วนเกี่ยวข้องตั้งแต่ทีมไอทีไปจนถึงผู้ใช้ปลายทางของคุณควรได้รับแจ้งเกี่ยวกับสถานะของเหตุการณ์ที่เกิดขึ้น การมีช่องทางการสื่อสารที่ชัดเจนก็เป็นประโยชน์เช่นกัน เพื่อให้ผู้ที่ได้รับผลกระทบรู้ว่าควรไปที่ใดเพื่อหาข้อมูลอัปเดตหรือรายงานเหตุการณ์ใหม่ๆ เมื่อมีแผนการสื่อสารที่ชัดเจน คุณจะสามารถสร้างความไว้วางใจและหลีกเลี่ยงการตำหนิที่ผิดพลาดได้ เหตุการณ์ที่สำคัญจะได้รับการจัดการด้วยระบบการทูตเสมอ

วิเคราะห์สาเหตุของปัญหา

หลังจากแก้ไขเหตุการณ์แล้ว คุณควรทำการวิเคราะห์สาเหตุที่แท้จริงเพื่อทำความเข้าใจว่าเหตุใดจึงเกิดเหตุการณ์ดังกล่าวขึ้นตั้งแต่แรก ซึ่งจะช่วยค้นหาช่องว่างหรือช่องโหว่ในระบบ ซึ่งคุณสามารถจัดการเพื่อป้องกันเหตุการณ์ที่คล้ายกันที่จะเกิดขึ้นในอนาคตได้ บทเรียนที่ได้เรียนรู้จากแต่ละเหตุการณ์มีประโยชน์ในการปรับปรุงโครงสร้างพื้นฐานและกระบวนการด้านไอทีอย่างต่อเนื่อง

นำแนวทางปฏิบัติด้านวิศวกรรมความโกลาหลมาใช้

วิศวกรรมความโกลาหล (Chaos Engineering) เป็นสาขาหนึ่งของวิศวกรรมซอฟต์แวร์ที่ตั้งใจทำให้ระบบอยู่ภายใต้สภาวะที่หยุดชะงัก เช่น เซิร์ฟเวอร์ล้มเหลว เวลาแฝงของเครือข่าย หรือข้อจำกัดของทรัพยากร การสร้างความโกลาหลในระบบจะทดสอบความยืดหยุ่น และยังเสริมสร้างความเข้มแข็งให้กับกระบวนการตอบสนองและการจัดการเหตุการณ์ขององค์กรอีกด้วย ซึ่งเป็นเทคนิคที่คล้ายกับการนำการแฮ็กอย่างมีจริยธรรมมาใช้ในการจัดการเหตุการณ์เกี่ยวกับความปลอดภัยทางไซเบอร์

AWS รองรับข้อกำหนดในการจัดการเหตุการณ์ของคุณได้อย่างไร

AWS มีบริการต่างๆ มากมายที่ช่วยให้องค์กรสามารถจัดการเหตุการณ์ได้อย่างมีประสิทธิภาพภายใน AWS และสภาพแวดล้อมแบบไฮบริด

AWS Incident Detection and Response นำเสนอการตรวจสอบเชิงรุกและการจัดการเหตุการณ์ให้กับลูกค้า AWS Enterprise Support สำหรับภาระงานที่เลือกไว้ ด้วยการทำงานร่วมกับผู้เชี่ยวชาญ คุณจะสามารถกำหนดเกณฑ์ชี้วัดที่สำคัญ การแจ้งเตือน และตารางการจัดลำดับความสำคัญสำหรับระบบการจัดการเหตุการณ์ด้านไอทีเพื่อเร่งการกู้คืนในกรณีที่เกิดเหตุการณ์ได้

AWS Managed Services (AMS) ช่วยปกป้องข้อมูลองค์กรของคุณรวมถึงโครงสร้างพื้นฐานด้วยความสามารถในการตอบสนองและแก้ไขเหตุการณ์ของ AWS คุณสามารถใช้ AMS เป็นวิธีในการว่าจ้างบุคคลภายนอกให้ดูแลจัดการเหตุการณ์ด้านไอทีของ AWS เพื่อที่องค์กรของคุณจะได้มุ่งเน้นไปที่ธุรกิจหลัก ต่อไปนี้คือสิ่งที่คุณสามารถทำได้ด้วย AMS

ขอความช่วยเหลือเกี่ยวกับปัญหาการดำเนินงานและขอความช่วยเหลือได้ตลอดเวลาผ่าน AWS Support Center ในคอนโซล AWS
เข้าถึงการสนับสนุนได้ตลอด 24 ชั่วโมงทุกวัน โดยที่เวลาตอบกลับจะขึ้นอยู่กับระดับบริการของบัญชีที่คุณเลือก (Plus, Premium)
รับการแจ้งเตือนในเชิงรุกเกี่ยวกับสัญญาณเตือนและคำถามที่สำคัญโดยใช้กลไกเดียวกัน

ในฐานะที่เป็นส่วนหนึ่งของ AWS Well-Architected Framework เรายังให้คำแนะนำที่ชัดเจน สำหรับการจัดการเหตุการณ์บนคลาวด์ ซึ่งเป็นแหล่งข้อมูลที่ดีในการช่วยวางแผนการจัดการเหตุการณ์สำหรับองค์กร โดยนำเสนอบริการด้านไอทีของตนเองที่ใช้บริการของ AWS Cloud คู่มือการตอบสนองเหตุการรักษาความปลอดภัยของ AWS เป็นอีกหนึ่งเนื้อหาที่มีประโยชน์สำหรับเหตุการณ์ที่เกี่ยวข้องกับความปลอดภัย

เริ่มต้นด้วยการจัดการเหตุการณ์บน AWS โดย การสร้างบัญชี วันนี้

ขั้นตอนต่อไปบน AWS

ดูแหล่งข้อมูลเกี่ยวกับผลิตภัณฑ์เพิ่มเติม

เรียนรู้เกี่ยวกับบริการด้านการบริหารจัดการและกำกับดูแล

ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน

เริ่มต้นสร้างใน Console

เริ่มต้นสร้างในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

กำลังโหลด

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

การจัดการเหตุการณ์คืออะไร