Quản lý sự cố là gì?

Quản lý sự cố (IM) là quy trình được đội ngũ CNTT sử dụng để ứng phó với sự cố gián đoạn dịch vụ ngoài dự kiến. Gián đoạn không mong muốn xảy ra do các sự cố như mất hoặc suy giảm kết nối mạng, tác vụ theo lịch (ví dụ như tác vụ sao lưu) không được thực hiện hoặc API không phản hồi. Quy trình quản lý sự cố cố gắng nhanh chóng khôi phục hoạt động bình thường của dịch vụ CNTT và giảm thiểu tác động tới việc kinh doanh. Trong quy trình này, đội ngũ sẽ phát hiện và điều tra các sự cố, giải quyết vấn đề và ghi chép lại các bước họ thực hiện để khôi phục dịch vụ.

Các sự kiện cần quản lý sự cố là gì?

Thuật ngữ quản lý sự cố không chỉ được sử dụng trong lĩnh vực CNTT. Ngoài lĩnh vực CNTT, bạn sẽ nghe nói về quản lý sự cố trong các lĩnh vực như dịch vụ cấp cứu, quản lý sự kiện quy mô lớn và vận hành nhà máy.

Với mục đích của bài viết này, chúng tôi đề cập đến quản lý sự cố trong bối cảnh quản lý dịch vụ CNTT (ITSM). Trong bối cảnh này, quản lý sự cố tập trung vào các hoạt động quản lý liên quan đến chất lượng dịch vụ và chính dịch vụ khách hàng.

Tiếp theo, chúng ta sẽ thảo luận về các sự kiện CNTT khác nhau trong phạm vi quản lý sự cố trong ITSM.

Sự cố

Trong quản lý sự cố, sự cố có thể được định nghĩa là các sự kiện không mong muốn gây ra sự sụt giảm chất lượng dự kiến hoặc đã thỏa thuận của dịch vụ CNTT. Quy mô của sự cố có thể nhỏ hoặc lớn và bạn có thể chỉ ra mức độ nghiêm trọng. Ví dụ: sự sụt giảm chất lượng dịch vụ có thể ở mức tối thiểu và gói gọn trong một vị trí địa lý cụ thể. hoặc dịch vụ có thể rơi vào tình trạng ngừng hoạt động hoàn toàn trên nhiều khu vực.

Vấn đề

Vấn đề đề cập đến nguyên nhân cơ bản của sự cố, được phát hiện sau khi điều tra thêm và cần thiết để giải quyết hoàn toàn sự cố. Ví dụ: nếu máy chủ web chạy chậm, vấn đề có thể là sai cấu hình bộ định tuyến tại trung tâm dữ liệu hoặc đứt cáp mạng ở vành đai.

Thay đổi

Trong quản lý sự cố, thay đổi đề cập đến khi một dịch vụ đang thay đổi để cải thiện chất lượng hoặc thêm các tính năng mới, chẳng hạn như vậy. Trong thời gian thay đổi, việc chuyển đổi phải được xử lý cẩn thận để tránh hoặc giảm thiểu gián đoạn đối với hoạt động kinh doanh bình thường. Điều này bao gồm tư vấn cho khách hàng về các gián đoạn dịch vụ dự kiến hoặc tiềm năng.

Yêu cầu dịch vụ

Yêu cầu dịch vụ là yêu cầu do khách hàng khởi xướng trong khuôn khổ các điều khoản thỏa thuận giữa nhà cung cấp và khách hàng. Yêu cầu này nên được thực hiện mà không làm gián đoạn các hoạt động bình thường.

Quản lý sự cố hoạt động như thế nào?

Quản lý sự cố sử dụng một tập hợp các quy trình ở dạng văn bản, trong đó phác thảo rõ ràng những việc cần làm để giảm thiểu tác động tiêu cực và thời lượng gián đoạn CNTT. Ngoài việc quản lý kỹ thuật đối với sai sót đã xảy ra, quản lý sự cố cũng bao gồm quản lý kỳ vọng của khách hàng, người dùng và các bên liên quan trong một sự cố.

Đối với khách hàng, thỏa thuận mức dịch vụ (SLA) xác định rõ các đảm bảo thời gian hoạt động dự kiến, thời gian giải quyết và các kênh giao tiếp khi xảy ra sự cố. Nhà cung cấp dịch vụ cần quản lý sự cố toàn diện để đáp ứng các điều khoản và điều kiện SLA của họ.

Tìm hiểu về SLA »

Khung quản lý sự cố CNTT

Các tổ chức sử dụng nhiều khung khác nhau để lập mô hình quy trình quản lý sự cố của mình. Hai ví dụ tiêu biểu là Quản lý sự cố từ Thư viện cơ sở hạ tầng CNTT (ITIL) 4 và Khung an ninh mạng từ Viện tiêu chuẩn và công nghệ quốc gia (NIST). Các khung này có thể được sử dụng theo nguyên trạng hoặc mở rộng để thích ứng với môi trường kinh doanh độc đáo, dịch vụ và các tiêu chuẩn giao tiếp của khách hàng và các bên liên quan.

Phần mềm quản lý sự cố thường được sử dụng để triển khai một khung trong tổ chức. Khung chính xác được sử dụng phụ thuộc vào các dịch vụ được cung cấp.

 

Quy trình quản lý sự cố gồm những bước nào?

Các bước liên quan đến quy trình quản lý sự cố phụ thuộc vào khung được sử dụng trong tổ chức. Tiếp theo, chúng ta sẽ thảo luận về các bước chính trong nhiều khung vòng đời quản lý sự cố phổ biến.

Xác định rủi ro

Xác định các tài sản quan trọng, hệ thống, dữ liệu và các tài nguyên khác để xác định vị trí rủi ro lớn nhất đối với doanh nghiệp. Trong bối cảnh cung cấp dịch vụ cho khách hàng, việc này liên quan đến việc xác định các hệ thống và tài sản có giá trị nhất của khách hàng.

Bảo vệ tài sản

Khi tài sản đã được xác định, các tổ chức tăng cường kiểm soát an ninh và hiệu năng. Ví dụ: một ứng dụng có thể được triển khai trên nhiều khu vực để luôn sẵn sàng trong trường hợp xảy ra tình trạng ngừng hoạt động trong khu vực. 

Phát hiện sự cố

Các hệ thống phải sẵn sàng để giám sát trạng thái của các tài sản quan trọng để có thể xác định mọi sự cố trong thời gian thực. Các tổ chức phải chủ động trong việc giám sát những điều bất thường; thường không nên để khách hàng tự báo cáo tình trạng ngừng hoạt động mới biết. Chú trọng vào khắc phục chủ động.

Ứng phó với sự cố

Khi phát hiện ra một sự cố, bạn phải ngay lập tức ngăn chặn bất kỳ sự gián đoạn nào. Nếu không thể làm vậy, bạn có thể làm theo một quy trình để kiểm soát hoặc hạn chế tác động. Bạn cũng có thể phải kích hoạt các hệ thống phụ để các hoạt động có thể tiếp tục ngay cả khi không thể sửa chữa nhanh chóng.  Phần lớn quy trình này có thể được tự động hóa, tùy thuộc vào bản chất của sự cố và các công cụ quản lý sự cố hiện có.

Phục hồi từ sự cố

Trong giai đoạn phục hồi, quá trình phân tích sự cố bắt đầu. Bạn thu thập các bài học kinh nghiệm, vạch ra kế hoạch ứng phó được cải thiện và khắc phục các vấn đề và quy trình. Các sự cố lớn có thể cần những nỗ lực phục hồi đáng kể. Hình ảnh sau đây cho thấy một trong các quy trình quản lý sự cố mà Amazon Web Services (AWS) sử dụng.

Các phương pháp quản lý sự cố tốt nhất là gì?

Các phương pháp tốt nhất giúp các tổ chức hoạt động ở cấp độ hoàn thiện nhất trong một đơn vị kinh doanh hoặc lĩnh vực chiến lược nhất định. Bằng cách tuân theo các phương pháp tốt nhất trong hệ thống quản lý sự cố, bạn có thể cung cấp dịch vụ tốt nhất cho khách hàng của mình.

Xây dựng các chính sách xử lý leo thang

Bạn sẽ có thể phân loại các sự cố theo mức độ ưu tiên và mức độ nghiêm trọng của chúng để hướng dẫn các khung thời gian, biện pháp khắc phục và các cuộc điều tra. Bạn nên ban hành các chính sách xử lý leo thang khi việc ứng phó với sự cố không diễn ra như mong đợi hoặc xảy ra một sự cố lớn có mức độ ưu tiên hoặc mức độ nghiêm trọng cao. Nếu không có các chính sách này, đội ngũ của bạn có thể lãng phí thời gian vào việc quyết định xem phải liên hệ với ai và phải làm gì.

Lập kế hoạch giao tiếp chi tiết

Các bên liên quan, từ đội ngũ CNTT đến người dùng cuối của bạn nên được cập nhật về tình trạng sự cố. Đồng thời, cần có các kênh liên lạc rõ ràng để những người bị ảnh hưởng biết cần cập nhật hoặc báo cáo các sự cố mới ở đâu. Bằng cách áp dụng kế hoạch giao tiếp rõ ràng, bạn có thể tạo dựng niềm tin và tránh đổ lỗi nhầm bên. Các sự cố nghiêm trọng luôn được xử lý một cách khéo léo. 

Thực hiện phân tích nguyên nhân gốc rễ

Sau khi giải quyết sự cố, bạn nên thực hiện phân tích nguyên nhân gốc rễ để nắm bắt nguyên nhân xảy ra sự cố. Điều này giúp xác định các khe hở hoặc lỗ hổng trong hệ thống mà bạn có thể giải quyết để ngăn chặn các sự cố tương tự trong tương lai. Các bài học rút ra từ mỗi sự cố rất hữu ích trong việc liên tục cải thiện cơ sở hạ tầng và quy trình CNTT.

Áp dụng biện pháp thực hành kỹ thuật mô phỏng trạng thái rối loạn tốt nhất

Kỹ thuật mô phỏng trạng thái rối loạn là một phân ngành trong kỹ thuật phần mềm, trong đó các hệ thống chủ định trải qua các tình trạng gián đoạn, chẳng hạn như lỗi máy chủ, độ trễ mạng hoặc hạn chế về tài nguyên. Xây dựng tình trạng hỗn loạn vào các hệ thống giúp kiểm thử khả năng phục hồi của hệ thống và cũng tăng cường các quy trình phản hồi và quản lý sự cố của tổ chức. Đây là một kỹ thuật tương tự như triển khai xâm nhập hợp đạo đức trong quản lý sự cố an ninh mạng.

AWS có thể hỗ trợ các yêu cầu về quản lý sự cố của bạn như thế nào?

AWS có một loạt các dịch vụ giúp các tổ chức quản lý sự cố hiệu quả trong AWS và các môi trường kết hợp.

Phát hiện và phản hồi sự cố AWS cung cấp cho khách hàng của dịch vụ Hỗ trợ dành cho doanh nghiệp AWS khả năng chủ động giám sát và quản lý sự cố cho các khối lượng công việc họ đã chọn. Làm việc với các chuyên gia, bạn xác định các chỉ số quan trọng, cảnh báo và lịch biểu ưu tiên cho hệ thống quản lý sự cố CNTT để tăng tốc phục hồi trong trường hợp xảy ra sự cố.

Dịch vụ được AWS quản lý (AMS) giúp bảo vệ thông tin cũng như cơ sở hạ tầng của tổ chức của bạn với khả năng phản hồi và giải quyết sự cố của AWS. AMS có thể được sử dụng như một cách để thuê ngoài dịch vụ quản lý sự cố CNTT AWS, qua đó tổ chức của bạn có thể tập trung vào hoạt động kinh doanh cốt lõi. Sau đây là những thao tác bạn có thể thực hiện với AMS:

  • Yêu cầu trợ giúp với các sự cố và yêu cầu hoạt động bất cứ lúc nào thông qua Trung tâm hỗ trợ AWS trong bảng điều khiển AWS
  • Truy cập hỗ trợ 24/7 với thời gian phản hồi phụ thuộc vào Bậc dịch vụ của tài khoản đã chọn của bạn (Plus, Cao cấp)
  • Nhận thông báo chủ động về các cảnh báo và câu hỏi quan trọng bằng cách sử dụng cùng một cơ chế

Là một phần của Khung AWS Well-Architected, chúng tôi cũng cung cấp hướng dẫn rõ ràng về quản lý sự cố trên đám mây. Đây là một nguồn tài nguyên tốt để giúp lập kế hoạch quản lý sự cố cho các tổ chức sử dụng dịch vụ đám mây AWS trong việc cung cấp dịch vụ CNTT của riêng họ. Hướng dẫn ứng phó với sự cố bảo mật AWS là một tài liệu hữu ích khác cho các sự cố liên quan đến bảo mật.

Bắt đầu sử dụng dịch vụ quản lý sự cố trên AWS bằng cách tạo tài khoản ngay hôm nay.

Các bước tiếp theo để sử dụng AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm
Tìm hiểu về các Dịch vụ quản lý và quản trị  
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập