Passa al contenuto principale

Cos'è la gestione degli incidenti?

Cos'è la gestione degli incidenti?

La gestione degli incidenti (IM) è il processo utilizzato dai team IT per rispondere a un'interruzione non pianificata del servizio. Le interruzioni impreviste si verificano a causa di incidenti come la perdita o il deterioramento della connettività di rete, la mancata esecuzione di un'attività pianificata (come un'attività di backup) o un'API che non risponde. Il processo di gestione degli incidenti tenta di ripristinare rapidamente il normale funzionamento del servizio IT e ridurre al minimo l'impatto aziendale. Nel processo, il team rileva e indaga sugli incidenti, risolve i problemi e documenta le misure adottate per ripristinare il servizio.

Perché è importante la gestione degli incidenti?

La gestione degli incidenti guida i team IT nella risposta più appropriata per qualsiasi incidente. Crea un sistema in modo che i team IT possano acquisire tutti i dettagli pertinenti per un ulteriore apprendimento. Puoi considerare la gestione degli incidenti come la guida per ripristinare le normali operazioni il più rapidamente possibile con interruzioni minime per i client interni ed esterni.

Senza sistemi di questo genere in atto, il ripristino degli incidenti porta inevitabilmente a errori ripetuti, a un uso improprio delle risorse e a un maggiore impatto negativo sull'organizzazione. Di seguito vengono descritti come trarre vantaggio dalla gestione degli incidenti.

Riduzione del verificarsi di incidenti

Disponendo di una guida da seguire in caso di incidente, i team possono risolvere gli incidenti il più rapidamente possibile. Allo stesso tempo, la gestione degli incidenti riduce anche la loro insorgenza nel tempo. Quando si identificano i rischi nelle prime fasi del processo di gestione degli incidenti, si riduce la possibilità di incidenti in futuro. L'acquisizione dell'analisi forense completa degli incidenti aiuta a porre rimedio in modo proattivo e aiuta a prevenire che incidenti simili si verifichino in seguito.

Prestazioni migliorate

Quando si utilizza un monitoraggio efficace e sensibile nella gestione degli incidenti IT, è possibile identificare e analizzare piccole riduzioni della qualità. Puoi anche scoprire nuovi modi per migliorare le prestazioni. Nel tempo, il team IT può valutare la qualità del servizio, i modelli di identificazione degli incidenti, il che può portare alla correzione predittiva e all'assistenza continua.

Collaborazione efficace

Spesso team diversi devono collaborare sullo stesso incidente da risolvere. È possibile migliorare in modo significativo la collaborazione delineando linee guida di comunicazione per tutte le parti all'interno del framework di risposta agli incidenti. Puoi anche gestire il sentiment degli stakeholder in modo più efficace.

Quali sono gli eventi che richiedono la gestione degli incidenti?

Il termine gestione degli incidenti non viene utilizzato esclusivamente nel campo IT. Al di fuori dell'IT, sentirai parlare di gestione degli incidenti in campi come servizi di emergenza, gestione di eventi su larga scala e operazioni degli impianti.

Ai fini di questo articolo, ci riferiamo alla gestione degli incidenti nel contesto della gestione dei servizi IT (ITSM). In questo contesto, la gestione degli incidenti si concentra sulle attività di gestione relative alla qualità del servizio e al servizio clienti stesso.

Di seguito sono trattati diversi eventi IT nell'ambito della gestione degli incidenti in ITSM.

Incidente

Nell'ambito della gestione degli incidenti, gli incidenti possono essere definiti come eventi imprevisti che causano un calo della qualità prevista o concordata del servizio IT. La portata dell'incidente può essere piccola o grande e tu puoi indicare la relativa criticità. Ad esempio, il calo della qualità di un servizio potrebbe essere minimo e limitato a una posizione geografica specifica. Oppure il servizio potrebbe subire un'interruzione completa in numerose aree geografiche.

Problema

Un problema si riferisce alla causa alla base dell'incidente che viene scoperta dopo ulteriori indagini ed è necessaria per la risoluzione completa dell'incidente. Ad esempio, se un server Web funziona lentamente, il problema potrebbe essere un'errata configurazione del router nel data center o un cavo di rete interrotto lungo il perimetro.

Modifica

Nella gestione degli incidenti, una modifica si riferisce a quando un servizio stesso viene modificato per migliorare la qualità o aggiungere nuove funzionalità, ad esempio. Durante il periodo di modifica, il rollover deve essere gestito con attenzione per evitare o ridurre al minimo l'interruzione delle normali operazioni aziendali. Ciò include la consulenza ai clienti in caso di interruzioni del servizio previste o potenziali.

Richiesta di assistenza

Una richiesta di assistenza è una richiesta avviata dal cliente entro i limiti dei termini del contratto fornitore-cliente. La richiesta deve essere eseguita senza interruzioni delle normali operazioni.

Come funziona la gestione degli incidenti?

La gestione degli incidenti utilizza una serie di processi documentati che delineano chiaramente cosa è necessario fare per ridurre al minimo l'impatto negativo e la durata delle interruzioni IT. Oltre alla gestione tecnica di ciò che è andato storto, include anche la gestione delle aspettative di clienti, utenti e stakeholder durante un incidente.

Per i clienti, gli accordi sul livello di servizio (SLA) definiscono chiaramente le garanzie di operatività previste, i tempi di risoluzione e i canali di comunicazione per gli incidenti. Richiede una gestione completa degli incidenti da parte del fornitore di servizi per soddisfare i termini e le condizioni dello SLA.

Leggi gli SLA»

Framework di gestione degli incidenti IT

Esistono vari framework che le organizzazioni utilizzano per modellare la propria gestione degli incidenti. Due esempi sono Incident Management di IT Infrastructure Library (ITIL) 4 e Cybersecurity Framework del National Institute of Standards and Technology (NIST). Questi framework possono essere utilizzati così come sono o essere estesi per adattarsi ad ambienti aziendali, servizi e standard di comunicazione unici per clienti e stakeholder.

Il software di gestione degli incidenti viene spesso utilizzato per implementare un framework all'interno di un'organizzazione. Il framework esatto utilizzato dipende dai servizi offerti.

Quali sono le fasi del processo di gestione degli incidenti?

Le fasi coinvolte nei processi di gestione degli incidenti dipendono dal framework utilizzato all'interno dell'organizzazione. Di seguito vengono illustrati i passaggi principali di molti framework comuni per la gestione del ciclo di vita degli incidenti.

Identificazione del rischio

L'identificazione di asset, sistemi, dati e altre risorse critiche determina quali sono i maggiori rischi per l'azienda. Nel contesto della fornitura di servizi ai clienti, si tratta di identificare i sistemi e le risorse più importanti.

Protezione delle risorse

Una volta identificate le risorse, le organizzazioni rafforzano i controlli di sicurezza e prestazioni. Ad esempio, un'applicazione potrebbe essere implementata in diverse regioni per garantire la disponibilità continua in caso di interruzioni regionali. 

Rilevamento degli incidenti

È necessario disporre di sistemi per monitorare lo stato degli asset critici in modo che eventuali incidenti possano essere identificati in tempo reale. Le organizzazioni devono essere proattive nel monitoraggio delle anomalie; di solito non è preferibile venire a conoscenza di un'interruzione prima da un cliente che la segnala personalmente. Il tutto si basa sulla riparazione proattiva.

Risposta agli incidenti

Una volta rilevato un incidente, è necessario arrestare immediatamente qualsiasi interruzione. Se ciò non è possibile, dovrai seguire una procedura per contenere o limitare l'impatto. Potrebbe anche essere necessario attivare sistemi secondari in modo che le operazioni possano riprendere anche in assenza di una soluzione rapida.  Gran parte di questa procedura può essere automatizzata, a seconda della natura dell'incidente e degli attuali strumenti di gestione degli incidenti.

Recupero dagli incidenti

Nella fase di recupero, inizia l'analisi dell'incidente. In questa fase acquisisci cosa hai imparato, formuli piani di risposta migliori e correggi problemi e processi. Gli incidenti gravi possono richiedere sforzi di ripristino significativi. L'immagine seguente mostra uno dei processi di gestione degli incidenti utilizzati da Amazon Web Services (AWS).

Quali sono le best practice per la gestione degli incidenti?

Le best practice aiutano le organizzazioni a operare al livello più maturo all'interno di una determinata unità aziendale o area strategica. Seguendo le best practice nei sistemi di gestione degli incidenti, puoi fornire il miglior servizio possibile ai tuoi clienti.

Sviluppo di policy di escalation

Dovresti essere in grado di classificare gli incidenti in base alla loro priorità e gravità per definire tempistiche, rimedi e indagini. È necessario adottare policy di escalation quando la risposta agli incidenti non procede come previsto o se si verifica un incidente grave di elevata priorità o gravità. Senza queste policy, il tuo team potrebbe perdere tempo a decidere chi contattare e cosa fare.

Pianificazione delle comunicazioni in dettaglio

Le parti interessate, dal team IT agli utenti finali, devono essere tenute informate sullo stato degli incidenti. È inoltre importante disporre di canali di comunicazione chiari in modo che le persone interessate sappiano a chi rivolgersi per ricevere aggiornamenti o segnalare nuovi incidenti. Disponendo di piani di comunicazione chiari, è possibile creare fiducia ed evitare colpe ingiustificate. Gli incidenti critici vengono sempre gestiti con diplomazia. 

Esegui l'analisi della causa principale

Dopo aver risolto un incidente, è necessario eseguire un'analisi della causa principale per capire perché l'incidente si è verificato in primo luogo. Ciò aiuta a identificare lacune o vulnerabilità nel sistema, che è possibile risolvere per prevenire incidenti simili in futuro. Le lezioni apprese da ogni incidente sono utili per migliorare continuamente l'infrastruttura e i processi IT.

Adozione di pratiche di ingegneria del caos

L'ingegneria del caos è una disciplina dell'ingegneria del software in cui i sistemi sono intenzionalmente soggetti a condizioni dirompenti, come guasti dei server, latenze di rete o limitazioni delle risorse. L'integrazione del caos nei sistemi mette alla prova la loro resilienza e rafforza anche i processi di risposta e gestione degli incidenti di un'organizzazione. Si tratta di una tecnica simile all'implementazione dell'hacking etico nella gestione degli incidenti di sicurezza informatica.

In che modo AWS può supportare i tuoi requisiti di gestione degli incidenti?

AWS offre una gamma di servizi che aiutano le organizzazioni a fornire una gestione efficace degli incidenti all'interno di AWS e ambienti ibridi.

AWS Incident Detection and Response offre ai clienti di AWS Enterprise Support il monitoraggio proattivo e la gestione degli incidenti per i carichi di lavoro selezionati. Collaborando con esperti, definisci parametri critici, allarmi e pianificazioni di prioritizzazione per un sistema di gestione degli incidenti IT per accelerare il ripristino in caso di incidente.

AWS Managed Services (AMS) aiuta a proteggere le informazioni dell'organizzazione e la sua infrastruttura con funzionalità di risposta e risoluzione degli incidenti di AWS. AMS può essere utilizzato per esternalizzare la gestione degli incidenti IT di AWS, in modo che l'organizzazione possa concentrarsi sul core business. Ecco cosa puoi fare con AMS:

  • Richiedi assistenza per problemi e richieste operativi in qualsiasi momento tramite il Centro supporto AWS nella console AWS

  • Accedi all'assistenza 24 ore su 24, 7 giorni su 7, con tempi di risposta dipendenti dal livello di servizio dell'account selezionato (Plus, Premium)

  • Ricevi notifiche proattive di avvisi e domande importanti utilizzando gli stessi meccanismi

Come parte dell'AWS Well-Architected Framework, forniamo anche linee guida chiare per la gestione degli incidenti nel cloud . È una buona risorsa per pianificare la gestione degli incidenti per le organizzazioni che offrono i propri servizi IT che utilizzano i servizi cloud AWS. La AWS Security Incident Response Guide è un altro materiale utile per gli incidenti legati alla sicurezza.

Inizia a gestire gli incidenti su AWS creando un account oggi stesso.