Saltar al contenido principal

¿Qué es la administración de incidentes?

¿Qué es la administración de incidentes?

La administración de incidentes es el proceso que utilizan los equipos de TI para responder a una interrupción no planificada del servicio. Las interrupciones inesperadas se producen debido a incidentes como la pérdida o la degradación de la conectividad de la red, una tarea programada (por ejemplo, una copia de seguridad) que no se lleva a cabo o una API que no responde. El proceso de administración de incidentes intenta restablecer rápidamente el funcionamiento normal del servicio de TI y minimizar el impacto empresarial. Durante el proceso, el equipo detecta e investiga los incidentes, resuelve los problemas y documenta las medidas que toman para restablecer el servicio.

¿Por qué es importante la administración de incidentes?

La administración de incidentes guía a los equipos de TI sobre la respuesta más adecuada para cualquier incidente. Crea un sistema para que los equipos de TI puedan capturar todos los detalles relevantes para seguir aprendiendo. Puede considerar la administración de incidentes como el manual para restablecer las operaciones normales lo más rápido posible con una interrupción mínima para los clientes internos y externos.

Sin sistemas implementados, la recuperación de incidentes conduce inevitablemente a errores repetidos, a un mal uso de los recursos y a un mayor impacto negativo en la organización. A continuación, analizamos algunas formas en las que puede beneficiarse de la administración de incidentes.

Reduzca la incidencia de incidentes

Al tener un manual para seguir en caso de un incidente, los equipos pueden resolver los incidentes lo más rápido posible. Al mismo tiempo, la administración de incidentes también reduce la incidencia a lo largo del tiempo. Al identificar los riesgos en una fase temprana del proceso de administración de incidentes, se reduce la posibilidad de que se produzcan incidentes en el futuro. La recopilación del análisis forense completo del incidente ayuda a la corrección proactiva y ayuda a evitar que ocurran incidentes similares más adelante.

Mejor rendimiento

Cuando utiliza una supervisión eficaz y sensible en la administración de incidentes de TI, puede identificar e investigar pequeñas reducciones de calidad. También puede descubrir nuevas formas de mejorar el rendimiento. Con el tiempo, su equipo de TI puede evaluar los patrones de identificación de incidentes de calidad del servicio, lo que puede conducir a una corrección predictiva y a un servicio continuo.

Colaboración efectiva

A menudo, diferentes equipos tienen que trabajar juntos para la recuperación de incidentes. Puede mejorar la colaboración de manera significativa si describe las pautas de comunicación para todas las partes dentro del marco de respuesta a incidentes. También puede administrar las opiniones de las partes interesadas de forma más eficaz.

¿Cuáles son los eventos que requieren administración de incidentes?

El término administración de incidentes no se utiliza exclusivamente en el campo de TI. Fuera del ámbito de TI, oirá hablar de la administración de incidentes en campos como los servicios de emergencia, la gestión de eventos a gran escala y las operaciones de planta.

A efectos de este artículo, nos referimos a la administración de incidentes en el contexto de la administración de servicios de TI (ITSM). En este aspecto, la administración de incidentes se centra en las actividades de administración relacionadas con la calidad del servicio y el propio servicio al cliente.

A continuación, analizamos diferentes eventos de TI dentro del ámbito de la administración de incidentes en ITSM.

Incidente

Dentro de la administración de incidentes, los incidentes se pueden definir como eventos inesperados que provocan una caída en la calidad esperada o acordada del servicio de TI. La escala del incidente puede ser pequeña o grande, y usted puede indicar su gravedad. Por ejemplo, la caída en la calidad del servicio podría ser mínima y limitarse a una ubicación geográfica específica. O bien, el servicio puede sufrir una interrupción total en varias regiones.

Problema

Un problema se refiere a la causa subyacente del incidente, que se descubre después de una investigación más profunda y es necesaria para la resolución completa del incidente. Por ejemplo, si un servidor web funciona con lentitud, el problema podría ser una mala configuración del enrutador en el centro de datos o un cable de red cortado en el perímetro.

Cambio

En la administración de incidentes, un cambio se refiere a cuando un servicio en sí mismo cambia para mejorar la calidad o agregar nuevas características, por ejemplo. Durante el periodo de cambio, la renovación debe administrarse con cuidado para evitar o minimizar la interrupción de las operaciones comerciales normales. Esto incluye asesorar a los clientes sobre interrupciones del servicio anticipadas o potenciales.

Solicitud de servicio

Una solicitud de servicio es una solicitud iniciada por el cliente dentro de los límites de los términos del acuerdo entre el proveedor y el cliente. La solicitud debe llevarse a cabo sin interrumpir las operaciones normales.

¿Cómo funciona la administración de incidentes?

La administración de incidentes utiliza un conjunto de procesos documentados que describen claramente lo que se debe hacer para minimizar el impacto negativo y la duración de la interrupción de TI. Además de la administración técnica de lo que salió mal, también incluye la administración de las expectativas de los clientes, los usuarios y las partes interesadas durante un incidente.

Para los clientes, los acuerdos de nivel de servicio (SLA) definen claramente las garantías de tiempo de actividad esperado, los tiempos de resolución y los canales de comunicación para los incidentes. Requiere una administración integral de incidentes por parte del proveedor de servicios para cumplir con los términos y condiciones de su SLA.

Lea acerca de los SLA»

Marcos de administración de incidentes de TI

Existen varios marcos que las organizaciones utilizan para modelar su administración de incidentes. Dos ejemplos son la administración de incidentes de la Biblioteca de Infraestructura de TI (ITIL) 4 y el Marco de Ciberseguridad del Instituto Nacional de Normalización y Tecnología (NIST). Estos marcos pueden usarse tal como están o ampliarse para adaptarse a entornos comerciales, servicios y estándares de comunicación con clientes y partes interesadas únicos.

El software de administración de incidentes se utiliza a menudo para implementar un marco dentro de una organización. El marco exacto utilizado depende de los servicios ofrecidos.

¿Cuáles son los pasos del proceso de administración de incidentes?

Los pasos involucrados en los procesos de administración de incidentes dependen del marco utilizado dentro de la organización. A continuación, analizamos los pasos principales en muchos marcos comunes del ciclo de vida de administración de incidentes.

Identifique el riesgo

La identificación de activos, sistemas, datos y otros recursos críticos determina dónde residen los mayores riesgos para el negocio. En el contexto de la prestación de servicios a los clientes, implica identificar sus sistemas y activos más valiosos.

Proteja los activos

Una vez que se han identificado los activos, las organizaciones fortalecen los controles de seguridad y rendimiento. Por ejemplo, una aplicación podría implementarse en varias regiones para mantener la disponibilidad en caso de interrupciones regionales. 

Detecte incidentes

Debe tener sistemas implementados para supervisar el estado de los activos críticos para que cualquier incidente pueda identificarse en tiempo real. Las organizaciones deben ser proactivas en la supervisión de anomalías. Por lo general, no es preferible que un cliente se entere primero de una interrupción y la informe él mismo. El énfasis está en la corrección proactiva.

Responda a los incidentes

Una vez que se detecta un incidente, debe detener cualquier interrupción de inmediato. Si esto no es posible, puedes seguir un proceso para contener o limitar el impacto. También es posible que tenga que activar sistemas secundarios para que las operaciones puedan reanudarse aunque no haya una solución rápida.  Gran parte de este proceso puede automatizarse, en función de la naturaleza del incidente y de las herramientas actuales de administración de incidentes.

Recupérese de incidentes

El análisis del incidente comienza en la fase de recuperación. Usted capta las lecciones aprendidas, formula planes de respuesta mejorados y soluciona problemas y procesos. Los incidentes graves pueden requerir importantes esfuerzos de recuperación. La siguiente imagen muestra uno de los procesos de administración de incidentes que utiliza Amazon Web Services (AWS).

¿Cuáles son las prácticas recomendadas de administración de incidentes?

Las prácticas recomendadas ayudan a las organizaciones a operar al nivel más maduro dentro de una unidad de negocio o área estratégica determinada. Si sigue las prácticas recomendadas en los sistemas de administración de incidentes, puede ofrecer el mejor servicio posible a sus clientes.

Desarrolle políticas de escalado

Debería poder clasificar los incidentes según su prioridad y gravedad para guiar los plazos, las soluciones y las investigaciones. Debe promulgar políticas de escalado cuando la respuesta a los incidentes no sea la esperada o si se produce un incidente importante de alta prioridad o gravedad. Sin estas políticas, su equipo podría perder tiempo decidiendo con quién contactar y qué hacer.

Planifique detalladamente las comunicaciones

Las partes interesadas, desde el equipo de TI hasta los usuarios finales, deben mantenerse informadas sobre el estado de los incidentes. También es valioso tener canales de comunicación claros para que los afectados sepan dónde acudir para obtener actualizaciones o informar de nuevos incidentes. Al contar con planes de comunicación claros, puede generar confianza y evitar culpas injustificadas. Los incidentes críticos siempre se tratan con diplomacia. 

Realice un análisis de la causa raíz

Después de resolver un incidente, debe llevar a cabo un análisis de la causa raíz para entender por qué se produjo el incidente. Esto ayuda a identificar brechas o vulnerabilidades en el sistema, que puede abordar para evitar incidentes similares en el futuro. Las lecciones aprendidas de cada incidente son útiles para mejorar continuamente la infraestructura y los procesos informáticos.

Adopte prácticas de ingeniería del caos

La ingeniería del caos es una disciplina de la ingeniería de software en la que los sistemas se someten intencionalmente a condiciones disruptivas, como errores en los servidores, latencias de red o limitaciones de recursos. Incorporar el caos a los sistemas pone a prueba su resiliencia y también fortalece los procesos de administración y respuesta a incidentes de una organización. Esta es una técnica similar a la implementación del hackeo ético en la administración de incidentes de ciberseguridad.

¿Cómo puede satisfacer AWS sus necesidades de administración de incidentes?

AWS cuenta con una gama de servicios que ayudan a las organizaciones a ofrecer una administración eficaz de incidentes en AWS y en entornos híbridos.

AWS Incident Detection and Response ofrece a los clientes de AWS Enterprise Support una supervisión proactiva y una gestión de incidentes para las cargas de trabajo seleccionadas. Al trabajar con expertos, usted define métricas críticas, alarmas y programas de priorización para un sistema de administración de incidentes de TI a fin de acelerar la recuperación en caso de que se produzca un incidente.

Los servicios gestionados de AWS (AMS) ayudan a proteger la información de su organización, así como su infraestructura, con las capacidades de respuesta y resolución de incidentes de AWS. AMS puede utilizarse como una forma de externalizar la administración de incidencias de TI de AWS, para que su organización pueda centrarse en el negocio principal. Esto es lo que puede hacer con AMS:

  • Solicitar ayuda con problemas y solicitudes operativas en cualquier momento a través de AWS Support Center en la consola de AWS

  • Acceder a asistencia las 24 horas del día y los 7 días de la semana, con un tiempo de respuesta que depende del nivel de servicio de cuenta seleccionado (Plus, Premium)

  • Recibir notificaciones proactivas de alertas y preguntas importantes con los mismos mecanismos

Como parte del marco de buena arquitectura de AWS, también ofrecemos una guía clara para la gestión de incidentes en la nube . Es un buen recurso para ayudar a planificar la administración de incidentes para las organizaciones que ofrecen sus propios servicios de TI y utilizan los servicios en la nube de AWS. La Guía de respuesta a incidentes de seguridad de AWS es otro material útil para los incidentes relacionados con la seguridad.

Comience con la administración de incidentes en AWS creando una cuenta hoy mismo.