Qu'est-ce que la gestion des incidents ?

La gestion des incidents (IM) est le processus utilisé par les équipes informatiques pour répondre à une interruption de service imprévue. Les interruptions inattendues sont dues à des incidents tels que la perte ou la dégradation de la connectivité réseau, une tâche planifiée (comme une tâche de sauvegarde) qui n'est pas exécutée, ou une API qui ne répond pas. Le processus de gestion des incidents tente de rétablir rapidement le fonctionnement normal du service informatique et de minimiser l'impact commercial. Au cours du processus, l'équipe détecte et enquête sur les incidents, résout les problèmes et documente les mesures prises pour rétablir le service.

Quels sont les événements qui nécessitent une gestion des incidents ?

Le terme gestion des incidents n'est pas utilisé exclusivement dans le domaine informatique. En dehors de l'informatique, vous entendrez parler de gestion des incidents (IM) dans des domaines tels que les services d'urgence, la gestion d'événements à grande échelle et l'exploitation d'usines.

Dans le cadre de cet article, nous faisons référence à l'IM dans le contexte de la gestion des services informatiques (ITSM). Dans ce contexte, la gestion des incidents se concentre sur les activités de gestion relatives à la qualité du service et au service client lui-même.

Nous abordons ci-après différents événements informatiques relevant de l'IM dans le cadre de l'ITSM.

Incident

Dans le cadre de la gestion des incidents, les incidents peuvent être définis comme des événements inattendus qui entraînent une baisse de la qualité attendue ou convenue du service informatique. L'ampleur de l'incident peut être petite ou grande, et vous pouvez indiquer son caractère critique. Par exemple, la baisse de la qualité du service peut être minime et se limiter à une zone géographique spécifique. Le service peut aussi subir une panne complète dans de nombreuses régions.

Problème

Un problème fait référence à la cause sous-jacente de l'incident, découverte après une enquête plus approfondie et nécessaire à la résolution complète de l'incident. Par exemple, si un serveur Web fonctionne lentement, le problème peut être dû à une mauvaise configuration du routeur dans le centre de données ou à un câble réseau sectionné au niveau du périmètre.

Modification

En matière d'IM, une modification fait référence au moment où un service lui-même change pour améliorer la qualité ou ajouter de nouvelles fonctionnalités, par exemple. Pendant la période de modification, le roulement doit être traité avec soin afin d'éviter ou de minimiser les perturbations des activités métier normales. Cela inclut d'informer les clients des interruptions de service prévues ou potentielles.

Demande de service

Une demande de service est une demande initiée par le client dans les limites du contrat fournisseur-client. La demande doit être exécutée sans perturber le fonctionnement normal.

Comment fonctionne la gestion des incidents ?

La gestion des incidents utilise un ensemble de processus documentés qui décrivent clairement ce qui doit être fait pour minimiser l'impact négatif et la durée des perturbations informatiques. Outre la gestion technique des problèmes, cela inclut également la gestion des attentes des clients, des utilisateurs et des parties prenantes lors d'un incident.

Pour les clients, les accords de niveau de service (SLA) définissent clairement les garanties de disponibilité attendues, les délais de résolution et les canaux de communication en cas d'incident. Cela nécessite une gestion complète des incidents de la part du fournisseur de services afin de respecter les termes et conditions de son contrat de niveau de service.

En savoir plus sur les SLA »

Cadres de gestion des incidents informatiques

Les organisations utilisent différents cadres pour modéliser leur gestion des incidents. La gestion des incidents proposée par la bibliothèque pour l'infrastructure des technologies de l'information (ITIL) 4 et le cadre de cybersécurité du National Institute of Standards and Technology (NIST) en sont deux exemples. Ces cadres peuvent être utilisés tels quels ou étendus pour s'adapter à des environnements métier uniques, à des services et à des normes de communication avec les clients et les parties prenantes.

Les logiciels de gestion des incidents sont souvent utilisés pour déployer un cadre au sein d'une organisation. Le cadre exact utilisé dépend des services proposés.

 

Quelles sont les étapes du processus de gestion des incidents ?

Les étapes inhérentes aux processus de gestion des incidents dépendent du cadre utilisé au sein de l'organisation. Nous abordons ci-après les principales étapes de nombreux cadres courants du cycle de vie de la gestion des incidents.

Identifier les risques

L'identification des ressources, systèmes, données et autres éléments critiques permet de déterminer où se situent les risques les plus importants pour l'entreprise. Dans le contexte de la prestation de services aux clients, il s'agit d'identifier leurs systèmes et ressources les plus précieux.

Protéger les ressources

Une fois les ressources identifiées, les organisations renforcent les contrôles de sécurité et de performance. Une application peut par exemple être déployée dans plusieurs régions pour une disponibilité continue en cas de panne régionale. 

Détecter les incidents

Des systèmes doivent être mis en place pour surveiller l'état des ressources critiques afin que tout incident puisse être identifié en temps réel. Les organisations doivent être proactives dans la surveillance des anomalies ; en règle générale, il n'est pas souhaitable d'apprendre une panne par le biais d'un client la signalant lui-même. L'accent est mis sur la remédiation proactive.

Réagir aux incidents

Dès qu'un incident est détecté, vous devez immédiatement mettre fin à toute perturbation. Si cela n'est pas possible, vous pouvez suivre un processus pour contenir ou limiter l'impact. Il se peut également que vous deviez activer des systèmes secondaires afin que les opérations puissent reprendre même s'il n'existe pas de solution miracle.  Cela peut être automatisé en grande partie, en fonction de la nature de l'incident et des outils de gestion des incidents actuels.

Reprise après un incident

Au cours de la phase de reprise, l'analyse de l'incident commence. Vous tirez les leçons de l'expérience, formulez des plans de réponse améliorés et remédiez aux problèmes et aux processus. Les incidents majeurs peuvent nécessiter des efforts de reprise importants. L'image suivante montre l'un des processus de gestion des incidents utilisés par Amazon Web Services (AWS).

Quelles sont les bonnes pratiques en matière de gestion des incidents ?

Les bonnes pratiques aident les organisations à fonctionner au niveau le plus abouti au sein d'une unité opérationnelle ou d'un domaine stratégique donné. En suivant les bonnes pratiques des systèmes de gestion des incidents, vous êtes en mesure de fournir le meilleur service possible à vos clients.

Élaborer des politiques d'escalade

Vous devez être en mesure de classer les incidents en fonction de leur priorité et de leur gravité afin d'orienter les délais, les remédiations et les enquêtes. Vous devez adopter des politiques d'escalade lorsque la réponse à un incident ne se déroule pas comme prévu ou si un incident majeur de priorité ou de gravité élevée survient. Sans ces règles, votre équipe risque de perdre du temps à décider qui contacter et quoi faire.

Planifier les communications en détail

Les parties prenantes, qu'il s'agisse de l'équipe informatique ou de vos utilisateurs finaux, doivent être tenues informées de l'état des incidents. Il est également important de disposer de canaux de communication clairs afin que les personnes concernées sachent où s'adresser pour obtenir des mises à jour ou signaler de nouveaux incidents. En mettant en place des plans de communication clairs, vous pouvez établir un climat de confiance et éviter les reproches inappropriés. Les incidents critiques sont toujours traités avec diplomatie. 

Effectuer une analyse de la cause racine

Après avoir résolu un incident, vous devez effectuer une analyse des causes profondes afin de comprendre pourquoi l'incident s'est produit. Cela permet d'identifier les lacunes ou les vulnérabilités du système, que vous pouvez corriger pour éviter que des incidents similaires ne se reproduisent à l'avenir. Les leçons tirées de chaque incident sont utiles pour améliorer en permanence l'infrastructure et les processus informatiques.

Adopter des pratiques d'ingénierie du chaos

L'ingénierie du chaos est une discipline du génie logiciel dans laquelle les systèmes sont intentionnellement soumis à des conditions perturbatrices, telles que des pannes de serveurs, des latences du réseau ou des limitations de ressources. L'intégration du chaos dans les systèmes met à l'épreuve leur résilience et renforce également les processus de réponse et de gestion des incidents d'une organisation. Il s'agit d'une technique similaire au déploiement du piratage éthique dans la gestion des incidents de cybersécurité.

Comment AWS peut-il répondre à vos exigences en matière de gestion d'incidents ?

AWS propose une gamme de services qui aident les entreprises à gérer efficacement les incidents au sein d'AWS et des environnements hybrides.

Le Service de traitement des incidents AWS offre aux clients d'AWS Enterprise Support une surveillance proactive et une gestion des incidents pour les charges de travail qu'ils ont sélectionnées. En collaboration avec des experts, vous définissez des métriques critiques, des alarmes et des programmes de priorisation pour un système de gestion des incidents informatiques afin d'accélérer la reprise en cas d'incident.

AWS Managed Services (AMS) aide à protéger les informations de votre organisation, ainsi que son infrastructure, grâce aux capacités de réponse et de résolution des incidents d'AWS. AMS peut être utilisé pour externaliser la gestion de vos incidents informatiques sur AWS, afin que votre organisation puisse se concentrer sur son cœur de métier. Voici ce que vous pouvez faire avec AWS :

  • Demander de l'aide pour des requêtes et problèmes opérationnels à tout moment via le centre AWS Support dans la console AWS
  • Bénéficier d'une assistance 24 heures sur 24, 7 jours sur 7, le temps de réponse dépendant du niveau de service de votre compte (Plus, Premium)
  • Recevoir des notifications proactives en cas d'alertes et de questions importantes en utilisant les mêmes mécanismes

Dans le cadre du cadre AWS Well-Architected, nous fournissons également des conseils clairs pour la gestion des incidents liés au cloud. Il s'agit d'une bonne ressource pour aider à planifier la gestion des incidents pour les organisations offrant leurs propres services informatiques utilisant les services cloud d'AWS. Le guide de réponse aux incidents de sécurité AWS est un autre document utile en cas d'incidents liés à la sécurité.

Commencez avec la gestion des incidents sur AWS en créant un compte dès aujourd'hui.

Étapes suivantes avec AWS

Consultez d'autres ressources liées aux produits
Découvrir les services de gestion et de gouvernance  
Créer un compte gratuit

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter