Überspringen zum Hauptinhalt

Was ist Incident Management?

Was ist Incident Management?

Incident Management (IM) ist der Prozess, mit dem IT-Teams auf eine ungeplante Betriebsunterbrechung reagieren. Unerwartete Unterbrechungen treten aufgrund von Vorfällen wie dem Verlust oder der Verschlechterung der Netzwerkkonnektivität, der Nichtausführung einer geplanten Aufgabe (z. B. einer Backup-Aufgabe) oder einer nicht reagierenden API auf. Der Incident-Management-Prozess versucht, den regulären Betrieb des IT-Service schnell wiederherzustellen und die Auswirkungen auf das Geschäft zu minimieren. Dabei erkennt und untersucht das Team Vorfälle, behebt Probleme und dokumentiert die Schritte, die es zur Wiederherstellung des Services unternimmt.

Warum ist Incident Management wichtig?

Das Incident Management unterstützt IT-Teams dabei, auf jeden Vorfall am besten zu reagieren. Es erstellt ein System, mit dem IT-Teams alle relevanten Details für weiteres Lernen erfassen können. Sie können das Incident Management als das Handbuch betrachten, mit dem Sie den normalen Betrieb so schnell wie möglich und mit minimalen Störungen für interne und externe Kunden wiederherstellen können.

Ohne Systeme führt die Wiederherstellung von Zwischenfällen unweigerlich zu wiederholten Fehlern, missbräuchlichen Ressourcen und größeren negativen Auswirkungen auf das Unternehmen. Als Nächstes besprechen wir einige Möglichkeiten, wie Sie vom Incident Management profitieren können.

Auftreten von Vorfällen reduzieren

Durch ein Playbook, das sie im Falle eines Vorfalls durchgehen können, können Teams Vorfälle so schnell wie möglich lösen. Gleichzeitig reduziert das Incident Management auch die Häufigkeit von Ereignissen im Laufe der Zeit. Wenn Sie Risiken frühzeitig im IM-Prozess erkennen, verringert sich die Wahrscheinlichkeit zukünftiger Vorfälle. Die Erfassung der gesamten Forensik von Vorfällen hilft bei der proaktiven Behebung und hilft zu verhindern, dass ähnliche Vorfälle später auftreten.

Verbesserte Leistung

Wenn Sie ein effektives und sensibles Monitoring im IT-Incident-Management einsetzen, können Sie geringfügige Qualitätseinbußen erkennen und untersuchen. Sie können auch neue Möglichkeiten zur Leistungssteigerung entdecken. Im Laufe der Zeit kann Ihr IT-Team die Muster der Servicequalität bei der Identifizierung von Vorfällen beurteilen, was zu vorausschauenden Problembehebungen und kontinuierlichem Service führen kann.

Effektive Zusammenarbeit

Bei der Behebung von Vorfällen müssen oft verschiedene Teams zusammenarbeiten. Sie können die Zusammenarbeit erheblich verbessern, indem Sie Kommunikationsrichtlinien für alle Beteiligten innerhalb des Vorfallreaktions-Frameworks festlegen. Sie können auch effektiver mit den Stimmungen Ihrer Stakeholder umgehen.

Für welche Ereignisse ist ein Incident Management erforderlich?

Der Begriff Incident Management wird nicht ausschließlich im IT-Bereich verwendet. Außerhalb der IT werden Sie von IM in Bereichen wie Rettungsdiensten, Großveranstaltungsmanagement und Anlagenbetrieb hören.

Für die Zwecke dieses Artikels beziehen wir uns auf IM im Kontext von IT Service Management (ITSM). In diesem Zusammenhang konzentriert sich das Incident Management auf die Managementaktivitäten in Bezug auf die Servicequalität und den Kundenservice selbst.

Als Nächstes besprechen wir verschiedene IT-Ereignisse im Rahmen von IM in ITSM.

Vorfall

Im Rahmen des Incident Managements können Vorfälle als unerwartete Ereignisse definiert werden, die zu einer Verschlechterung der erwarteten oder vereinbarten Qualität des IT-Services führen. Das Ausmaß des Vorfalls kann klein oder groß sein, und Sie können angeben, dass er kritisch ist. Beispielsweise könnte der Rückgang der Servicequalität minimal und auf einen bestimmten geografischen Standort beschränkt sein. Oder der Service kann in zahlreichen Regionen vollständig ausfallen.

Problem

Ein Problem bezieht sich auf die dem Vorfall zugrunde liegende Ursache, die nach weiteren Untersuchungen entdeckt wird und für die vollständige Behebung des Vorfalls erforderlich ist. Wenn beispielsweise ein Webserver langsam läuft, kann das Problem eine Fehlkonfiguration des Routers im Rechenzentrum oder ein abgetrenntes Netzwerkkabel am Perimeter sein.

Veränderungen

In IM bezieht sich eine Änderung darauf, dass ein Service selbst geändert wird, um beispielsweise die Qualität zu verbessern oder neue Funktionen hinzuzufügen. Während des Wechselzeitraums muss der Rollover sorgfältig gehandhabt werden, um Störungen des normalen Geschäftsbetriebs zu vermeiden oder so gering wie möglich zu halten. Dazu gehört auch die Information von Kunden über erwartete oder mögliche Serviceunterbrechungen.

Serviceanfrage

Eine Serviceanfrage ist eine vom Kunden initiierte Anfrage im Rahmen der Bedingungen der Vereinbarung zwischen Anbieter und Kunde. Die Anfrage sollte ohne Unterbrechung des normalen Betriebs ausgeführt werden.

Wie funktioniert Incident Management?

Das Incident Management verwendet eine Reihe dokumentierter Prozesse, in denen klar dargelegt wird, was getan werden muss, um die negativen Auswirkungen und die Dauer von IT-Störungen zu minimieren. Neben dem technischen Management dessen, was schief gelaufen ist, umfasst es auch das Management der Erwartungen von Kunden, Benutzern und Stakeholdern während eines Vorfalls.

Für Kunden definieren Service Level Agreements (SLAs) klar die erwarteten Verfügbarkeitsgarantien, Lösungszeiten und Kommunikationskanäle für Vorfälle. Es erfordert ein umfassendes Incident-Management seitens des Dienstanbieters, um seine SLA-Bedingungen zu erfüllen.

Lesen Sie mehr über SLAs“

Frameworks für die Verwaltung von IT-Vorfällen

Es gibt verschiedene Frameworks, die Unternehmen verwenden, um ihr IM zu modellieren. Zwei Beispiele sind Incident Management aus der IT Infrastructure Library (ITIL) 4 und das Cybersecurity Framework des National Institute of Standards and Technology (NIST). Diese Frameworks können unverändert verwendet oder erweitert werden, um sie an einzigartige Geschäftsumgebungen, Dienste und Kommunikationsstandards für Kunden und Interessengruppen anzupassen.

Incident-Management-Software wird häufig verwendet, um ein Framework innerhalb einer Organisation bereitzustellen. Welches Framework genau verwendet wird, hängt von den angebotenen Diensten ab.

Was sind die Schritte im Incident-Management-Prozess?

Die Schritte der Incident-Management-Prozesse hängen von dem innerhalb der Organisation verwendeten Framework ab. Als Nächstes besprechen wir die wichtigsten Schritte in vielen gängigen Lifecycle-Frameworks für das Incident Management.

Risiko identifizieren

Die Identifizierung kritischer Ressourcen, Systeme, Daten und anderer Ressourcen bestimmt, wo die größten Risiken für das Unternehmen liegen. Im Zusammenhang mit der Erbringung von Dienstleistungen für Kunden geht es darum, deren wertvollste Systeme und Vermögenswerte zu identifizieren.

Assets schützen

Sobald Assets identifiziert wurden, verstärken Unternehmen ihre Sicherheits- und Leistungskontrollen. Beispielsweise könnte eine Anwendung in mehreren Regionen eingesetzt werden, um bei regionalen Ausfällen kontinuierlich verfügbar zu sein. 

Vorfälle erkennen

Es müssen Systeme zur Überwachung des Zustands kritischer Assets vorhanden sein, sodass Vorfälle in Echtzeit erkannt werden können. Unternehmen müssen bei der Überwachung von Anomalien proaktiv vorgehen. In der Regel ist es nicht vorzuziehen, zuerst von einem Kunden, der ihn selbst meldet, von einem Ausfall zu erfahren. Der Schwerpunkt liegt auf proaktiver Problembehebung.

Auf Vorfälle reagieren

Sobald ein Vorfall erkannt wird, müssen Sie jede Störung sofort beenden. Wenn dies nicht möglich ist, können Sie einem Prozess folgen, um die Auswirkungen einzudämmen oder zu begrenzen. Möglicherweise müssen Sie auch Sekundärsysteme aktivieren, damit der Betrieb auch dann wieder aufgenommen werden kann, wenn es keine schnelle Lösung gibt.  Vieles davon kann automatisiert werden, abhängig von der Art des Vorfalls und den aktuellen Tools für das Incident Management.

Von Vorfällen erholen

In der Erholungsphase beginnt die Analyse des Vorfalls. Sie erfassen die gewonnenen Erkenntnisse, formulieren verbesserte Reaktionspläne und beheben Probleme und Prozesse. Schwerwiegende Vorfälle können erhebliche Wiederherstellungsmaßnahmen erfordern. Die folgende Abbildung zeigt einen Incident-Management-Prozesse, die Amazon Web Services (AWS) verwendet.

Was sind Best Practices für das Incident Management?

Best Practices helfen Unternehmen dabei, innerhalb einer bestimmten Geschäftseinheit oder eines strategischen Bereichs auf der ausgereiftesten Ebene zu agieren. Indem Sie sich an bewährte Verfahren für Incident-Management-Systeme halten, können Sie Ihren Kunden den bestmöglichen Service bieten.

Entwickeln Sie Eskalationsrichtlinien

Sie sollten in der Lage sein, Vorfälle nach Priorität und Schweregrad zu kategorisieren, um Zeitpläne, Abhilfemaßnahmen und Untersuchungen festzulegen. Sie sollten Eskalationsrichtlinien einführen, wenn die Reaktion auf Vorfälle nicht wie erwartet verläuft oder wenn ein schwerwiegender Vorfall mit hoher Priorität oder Schwere eintritt. Ohne diese Richtlinien könnte Ihr Team Zeit damit verschwenden, zu entscheiden, an wen es sich wenden und was zu tun ist.

Kommunikation im Detail planen

Stakeholder, vom IT-Team bis hin zu Ihren Endbenutzern, sollten über den Status von Vorfällen auf dem Laufenden gehalten werden. Es ist auch wichtig, klare Kommunikationskanäle zu haben, damit die Betroffenen wissen, wo sie Updates erhalten oder neue Vorfälle melden können. Durch klare Kommunikationspläne können Sie Vertrauen aufbauen und falsche Schuldzuweisungen vermeiden. Kritische Vorfälle werden immer diplomatisch behandelt. 

Ursachenanalyse durchführen

Nach der Lösung eines Vorfalls sollten Sie eine Ursachenanalyse durchführen, um zu verstehen, warum der Vorfall überhaupt aufgetreten ist. Dies hilft dabei, Lücken oder Schwachstellen im System zu identifizieren, die Sie beheben können, um ähnliche Vorfälle in Zukunft zu verhindern. Die aus jedem Vorfall gewonnenen Erkenntnisse sind hilfreich, um die IT-Infrastruktur und die IT-Prozesse kontinuierlich zu verbessern.

Wenden Sie Chaos-Engineering-Methoden an

Chaos Engineering ist eine Disziplin in der Softwareentwicklung, bei der Systeme absichtlich störenden Bedingungen wie Serverausfällen, Netzwerklatenzen oder Ressourcenbeschränkungen ausgesetzt sind. Der Aufbau von Chaos in Systemen testet deren Widerstandsfähigkeit und stärkt auch die Reaktion auf Vorfälle und die Managementprozesse eines Unternehmens. Dies ist eine ähnliche Technik wie der Einsatz von ethischem Hacking im Cybersicherheit-Incident-Management.

Wie kann AWS Ihre Incident-Management-Anforderungen unterstützen?

AWS bietet eine Reihe von Services, die Unternehmen dabei unterstützen, ein effektives Incident Management in AWS- und Hybridumgebungen bereitzustellen.

AWS Incident Detection and Response bietet Kunden von AWS Enterprise Support proaktive Überwachung und Incident-Management für ihre ausgewählten Workloads. In Zusammenarbeit mit Experten definieren Sie kritische Kennzahlen, Alarme und Priorisierungspläne für ein IT-Incident-Management-System, um die Wiederherstellung im Falle eines Vorfalls zu beschleunigen.

AWS Managed Services (AMS) trägt mit AWS-Funktionen zur Reaktion und Behebung von Vorfällen zum Schutz der Informationen Ihres Unternehmens sowie seiner Infrastruktur bei. AMS kann verwendet werden, um Ihr AWS-IT-Incident-Management auszulagern, sodass sich Ihr Unternehmen auf das Kerngeschäft konzentrieren kann. Mit AMS können Sie Folgendes tun:

  • Über das AWS-Supportcenter in der AWS-Konsole können Sie jederzeit Hilfe bei betrieblichen Problemen und Anfragen anfordern

  • Greifen Sie rund um die Uhr auf Support zu, dessen Reaktionszeit von Ihrem ausgewählten Konto abhängt Service Tier (Plus, Premium)

  • Erhalten Sie proaktive Benachrichtigungen über wichtige Benachrichtigungen und Fragen mithilfe derselben Mechanismen

Als Teil des AWS Well-Architected Framework bieten wir auch klare Leitlinien für das Cloud-Incident-Management . Es ist eine gute Ressource, um Unternehmen bei der Planung des Incident Management zu unterstützen, die ihre eigenen IT-Services anbieten und AWS-Cloud-Services nutzen. Der AWS Security Incident Response Guide ist ein weiteres nützliches Material für sicherheitsrelevante Vorfälle.

Beginnen Sie mit dem Incident-Management auf AWS, indem Sie noch heute ein Konto erstellen .