- Điện toán đám mây là gì?›
- Trung tâm khái niệm về điện toán đám mây›
- Quản lý và quản trị
Quản lý sự cố là gì?
Quản lý sự cố là gì?
Quản lý sự cố (IM) là quy trình được đội ngũ CNTT sử dụng để ứng phó với sự cố gián đoạn dịch vụ ngoài dự kiến. Gián đoạn không mong muốn xảy ra do các sự cố như mất hoặc suy giảm kết nối mạng, tác vụ theo lịch (ví dụ như tác vụ sao lưu) không được thực hiện hoặc API không phản hồi. Quy trình quản lý sự cố cố gắng nhanh chóng khôi phục hoạt động bình thường của dịch vụ CNTT và giảm thiểu tác động tới việc kinh doanh. Trong quy trình này, đội ngũ sẽ phát hiện và điều tra các sự cố, giải quyết vấn đề và ghi chép lại các bước họ thực hiện để khôi phục dịch vụ.
Tại sao quản lý sự cố lại quan trọng?
Quản lý sự cố hướng dẫn đội ngũ CNTT về phản hồi thích hợp nhất cho bất kỳ sự cố nào. Quản lý sự cố tạo ra một hệ thống để đội ngũ CNTT có thể thu thập tất cả các chi tiết liên quan để học hỏi thêm. Bạn có thể coi quản lý sự cố như một cuốn cẩm nang để khôi phục các hoạt động bình thường nhanh nhất có thể với gián đoạn tối thiểu cho khách hàng nội bộ và bên ngoài.
Nếu không áp dụng các hệ thống, việc phục hồi sự cố chắc chắn sẽ dẫn đến những sai lầm lặp đi lặp lại, lạm dụng nguồn lực và tác động tiêu cực lớn hơn đến tổ chức. Tiếp theo, chúng ta sẽ thảo luận về một số cách bạn hưởng lợi từ quản lý sự cố.
Giảm số lượng sự cố xảy ra
Bằng cách sở hữu một cuốn cẩm nang để xem xét chi tiết trong trường hợp xảy ra sự cố, các đội ngũ có thể giải quyết sự cố trong thời gian sớm nhất. Đồng thời, quản lý sự cố cũng giảm sự cố xuất hiện theo thời gian. Khi bạn xác định rủi ro ngay từ sớm trong quy trình quản lý sự cố, khả năng xảy ra sự cố sẽ giảm trong tương lai. Ghi chép lại toàn bộ công tác điều tra sự cố sẽ giúp khắc phục chủ động và ngăn chặn những sự cố tương tự xảy ra sau này.
Cải thiện hiệu suất
Khi giám sát hiệu quả và nhạy cảm trong quản lý sự cố CNTT, bạn có thể xác định và điều tra tình trạng sụt giảm nhẹ về chất lượng. Bạn cũng có thể khám phá những cách mới để cải thiện hiệu năng. Theo thời gian, đội ngũ CNTT của bạn có thể đánh giá chất lượng của các mẫu nhận dạng sự cố dịch vụ, qua đó có thể giúp khắc phục dự đoán và cung cấp dịch vụ liên tục.
Cộng tác hiệu quả
Các đội ngũ khác nhau thường phải cùng làm việc để phục hồi sau sự cố. Bạn có thể cải thiện đáng kể việc cộng tác bằng cách đề ra hướng dẫn giao tiếp cho tất cả các bên trong khuôn khổ ứng phó với sự cố. Bạn cũng có thể quản lý cảm xúc của các bên liên quan hiệu quả hơn.
Các sự kiện cần quản lý sự cố là gì?
Thuật ngữ quản lý sự cố không chỉ được sử dụng trong lĩnh vực CNTT. Ngoài lĩnh vực CNTT, bạn sẽ nghe nói về quản lý sự cố trong các lĩnh vực như dịch vụ cấp cứu, quản lý sự kiện quy mô lớn và vận hành nhà máy.
Với mục đích của bài viết này, chúng tôi đề cập đến quản lý sự cố trong bối cảnh quản lý dịch vụ CNTT (ITSM). Trong bối cảnh này, quản lý sự cố tập trung vào các hoạt động quản lý liên quan đến chất lượng dịch vụ và chính dịch vụ khách hàng.
Tiếp theo, chúng ta sẽ thảo luận về các sự kiện CNTT khác nhau trong phạm vi quản lý sự cố trong ITSM.
Sự cố
Trong quản lý sự cố, sự cố có thể được định nghĩa là các sự kiện không mong muốn gây ra sự sụt giảm chất lượng dự kiến hoặc đã thỏa thuận của dịch vụ CNTT. Quy mô của sự cố có thể nhỏ hoặc lớn và bạn có thể chỉ ra mức độ nghiêm trọng. Ví dụ: sự sụt giảm chất lượng dịch vụ có thể ở mức tối thiểu và gói gọn trong một vị trí địa lý cụ thể. hoặc dịch vụ có thể rơi vào tình trạng ngừng hoạt động hoàn toàn trên nhiều khu vực.
Vấn đề
Vấn đề đề cập đến nguyên nhân cơ bản của sự cố, được phát hiện sau khi điều tra thêm và cần thiết để giải quyết hoàn toàn sự cố. Ví dụ: nếu máy chủ web chạy chậm, vấn đề có thể là sai cấu hình bộ định tuyến tại trung tâm dữ liệu hoặc đứt cáp mạng ở vành đai.
Thay đổi
Trong quản lý sự cố, thay đổi đề cập đến khi một dịch vụ đang thay đổi để cải thiện chất lượng hoặc thêm các tính năng mới, chẳng hạn như vậy. Trong thời gian thay đổi, việc chuyển đổi phải được xử lý cẩn thận để tránh hoặc giảm thiểu gián đoạn đối với hoạt động kinh doanh bình thường. Điều này bao gồm tư vấn cho khách hàng về các gián đoạn dịch vụ dự kiến hoặc tiềm năng.
Yêu cầu dịch vụ
Yêu cầu dịch vụ là yêu cầu do khách hàng khởi xướng trong khuôn khổ các điều khoản thỏa thuận giữa nhà cung cấp và khách hàng. Yêu cầu này nên được thực hiện mà không làm gián đoạn các hoạt động bình thường.
Quản lý sự cố hoạt động như thế nào?
Quản lý sự cố sử dụng một tập hợp các quy trình ở dạng văn bản, trong đó phác thảo rõ ràng những việc cần làm để giảm thiểu tác động tiêu cực và thời lượng gián đoạn CNTT. Ngoài việc quản lý kỹ thuật đối với sai sót đã xảy ra, quản lý sự cố cũng bao gồm quản lý kỳ vọng của khách hàng, người dùng và các bên liên quan trong một sự cố.
Đối với khách hàng, thỏa thuận mức dịch vụ (SLA) xác định rõ các đảm bảo thời gian hoạt động dự kiến, thời gian giải quyết và các kênh giao tiếp khi xảy ra sự cố. Nhà cung cấp dịch vụ cần quản lý sự cố toàn diện để đáp ứng các điều khoản và điều kiện SLA của họ.
Khung quản lý sự cố CNTT
Các tổ chức sử dụng nhiều khung khác nhau để lập mô hình quy trình quản lý sự cố của mình. Hai ví dụ tiêu biểu là Quản lý sự cố từ Thư viện cơ sở hạ tầng CNTT (ITIL) 4 và Khung an ninh mạng từ Viện tiêu chuẩn và công nghệ quốc gia (NIST). Các khung này có thể được sử dụng theo nguyên trạng hoặc mở rộng để thích ứng với môi trường kinh doanh độc đáo, dịch vụ và các tiêu chuẩn giao tiếp của khách hàng và các bên liên quan.
Phần mềm quản lý sự cố thường được sử dụng để triển khai một khung trong tổ chức. Khung chính xác được sử dụng phụ thuộc vào các dịch vụ được cung cấp.
Quy trình quản lý sự cố gồm những bước nào?
Các bước liên quan đến quy trình quản lý sự cố phụ thuộc vào khung được sử dụng trong tổ chức. Tiếp theo, chúng ta sẽ thảo luận về các bước chính trong nhiều khung vòng đời quản lý sự cố phổ biến.
Xác định rủi ro
Xác định các tài sản quan trọng, hệ thống, dữ liệu và các tài nguyên khác để xác định vị trí rủi ro lớn nhất đối với doanh nghiệp. Trong bối cảnh cung cấp dịch vụ cho khách hàng, việc này liên quan đến việc xác định các hệ thống và tài sản có giá trị nhất của khách hàng.
Bảo vệ tài sản
Khi tài sản đã được xác định, các tổ chức tăng cường kiểm soát an ninh và hiệu năng. Ví dụ: một ứng dụng có thể được triển khai trên nhiều khu vực để luôn sẵn sàng trong trường hợp xảy ra tình trạng ngừng hoạt động trong khu vực.
Phát hiện sự cố
Các hệ thống phải sẵn sàng để giám sát trạng thái của các tài sản quan trọng để có thể xác định mọi sự cố trong thời gian thực. Các tổ chức phải chủ động trong việc giám sát những điều bất thường; thường không nên để khách hàng tự báo cáo tình trạng ngừng hoạt động mới biết. Chú trọng vào khắc phục chủ động.
Ứng phó với sự cố
Khi phát hiện ra một sự cố, bạn phải ngay lập tức ngăn chặn bất kỳ sự gián đoạn nào. Nếu không thể làm vậy, bạn có thể làm theo một quy trình để kiểm soát hoặc hạn chế tác động. Bạn cũng có thể phải kích hoạt các hệ thống phụ để các hoạt động có thể tiếp tục ngay cả khi không thể sửa chữa nhanh chóng. Phần lớn quy trình này có thể được tự động hóa, tùy thuộc vào bản chất của sự cố và các công cụ quản lý sự cố hiện có.
Phục hồi từ sự cố
Trong giai đoạn phục hồi, quá trình phân tích sự cố bắt đầu. Bạn thu thập các bài học kinh nghiệm, vạch ra kế hoạch ứng phó được cải thiện và khắc phục các vấn đề và quy trình. Các sự cố lớn có thể cần những nỗ lực phục hồi đáng kể. Hình ảnh sau đây cho thấy một trong các quy trình quản lý sự cố mà Amazon Web Services (AWS) sử dụng.
Các phương pháp quản lý sự cố tốt nhất là gì?
Các phương pháp tốt nhất giúp các tổ chức hoạt động ở cấp độ hoàn thiện nhất trong một đơn vị kinh doanh hoặc lĩnh vực chiến lược nhất định. Bằng cách tuân theo các phương pháp tốt nhất trong hệ thống quản lý sự cố, bạn có thể cung cấp dịch vụ tốt nhất cho khách hàng của mình.
Xây dựng các chính sách xử lý leo thang
Bạn sẽ có thể phân loại các sự cố theo mức độ ưu tiên và mức độ nghiêm trọng của chúng để hướng dẫn các khung thời gian, biện pháp khắc phục và các cuộc điều tra. Bạn nên ban hành các chính sách xử lý leo thang khi việc ứng phó với sự cố không diễn ra như mong đợi hoặc xảy ra một sự cố lớn có mức độ ưu tiên hoặc mức độ nghiêm trọng cao. Nếu không có các chính sách này, đội ngũ của bạn có thể lãng phí thời gian vào việc quyết định xem phải liên hệ với ai và phải làm gì.
Lập kế hoạch giao tiếp chi tiết
Các bên liên quan, từ đội ngũ CNTT đến người dùng cuối của bạn nên được cập nhật về tình trạng sự cố. Đồng thời, cần có các kênh liên lạc rõ ràng để những người bị ảnh hưởng biết cần cập nhật hoặc báo cáo các sự cố mới ở đâu. Bằng cách áp dụng kế hoạch giao tiếp rõ ràng, bạn có thể tạo dựng niềm tin và tránh đổ lỗi nhầm bên. Các sự cố nghiêm trọng luôn được xử lý một cách khéo léo.
Thực hiện phân tích nguyên nhân gốc rễ
Sau khi giải quyết sự cố, bạn nên thực hiện phân tích nguyên nhân gốc rễ để nắm bắt nguyên nhân xảy ra sự cố. Điều này giúp xác định các khe hở hoặc lỗ hổng trong hệ thống mà bạn có thể giải quyết để ngăn chặn các sự cố tương tự trong tương lai. Các bài học rút ra từ mỗi sự cố rất hữu ích trong việc liên tục cải thiện cơ sở hạ tầng và quy trình CNTT.
Áp dụng biện pháp thực hành kỹ thuật mô phỏng trạng thái rối loạn tốt nhất
Kỹ thuật mô phỏng trạng thái rối loạn là một phân ngành trong kỹ thuật phần mềm, trong đó các hệ thống chủ định trải qua các tình trạng gián đoạn, chẳng hạn như lỗi máy chủ, độ trễ mạng hoặc hạn chế về tài nguyên. Xây dựng tình trạng hỗn loạn vào các hệ thống giúp kiểm thử khả năng phục hồi của hệ thống và cũng tăng cường các quy trình phản hồi và quản lý sự cố của tổ chức. Đây là một kỹ thuật tương tự như triển khai xâm nhập hợp đạo đức trong quản lý sự cố an ninh mạng.
AWS có thể hỗ trợ các yêu cầu về quản lý sự cố của bạn như thế nào?
AWS có một loạt các dịch vụ giúp các tổ chức quản lý sự cố hiệu quả trong AWS và các môi trường kết hợp.
AWS Incident Detection and Response cung cấp cho khách hàng của AWS Enterprise Support giám sát chủ động và quản lý sự cố cho khối lượng công việc đã chọn của họ. Làm việc với các chuyên gia, bạn xác định các chỉ số quan trọng, cảnh báo và lịch biểu ưu tiên cho hệ thống quản lý sự cố CNTT để tăng tốc phục hồi trong trường hợp xảy ra sự cố.
AWS Managed Services (AMS) giúp bảo vệ thông tin của tổ chức cũng như cơ sở hạ tầng của tổ chức của bạn với khả năng phản hồi và giải quyết sự cố của AWS. AMS có thể được sử dụng như một cách để thuê ngoài dịch vụ quản lý sự cố CNTT AWS, qua đó tổ chức của bạn có thể tập trung vào hoạt động kinh doanh cốt lõi. Sau đây là những thao tác bạn có thể thực hiện với AMS:
-
Yêu cầu trợ giúp với các sự cố và yêu cầu hoạt động bất cứ lúc nào thông qua Trung tâm hỗ trợ AWS trong bảng điều khiển AWS
-
Truy cập hỗ trợ 24/7 với thời gian phản hồi phụ thuộc vào Bậc dịch vụ của tài khoản đã chọn của bạn (Plus, Cao cấp)
-
Nhận thông báo chủ động về các cảnh báo và câu hỏi quan trọng bằng cách sử dụng cùng một cơ chế
Là một phần của AWS Well-Architected Framework, chúng tôi cũng cung cấp hướng dẫn rõ ràng về quản lý sự cố trên đám mây . Đây là một nguồn tài nguyên tốt để giúp lập kế hoạch quản lý sự cố cho các tổ chức sử dụng dịch vụ đám mây AWS trong việc cung cấp dịch vụ CNTT của riêng họ. Hướng dẫn Ứng phó Sự cố Bảo mật AWS là một tài liệu hữu ích khác cho các sự cố liên quan đến bảo mật.
Bắt đầu quản lý sự cố trên AWS bằng cách tạo tài khoản ngay hôm nay.