¿Qué es la administración de incidentes?

La administración de incidentes es el proceso que utilizan los equipos de TI para responder a una interrupción no planificada del servicio. Las interrupciones inesperadas se producen debido a incidentes como la pérdida o la degradación de la conectividad de la red, una tarea programada (por ejemplo, una copia de seguridad) que no se lleva a cabo o una API que no responde. El proceso de administración de incidentes intenta restablecer rápidamente el funcionamiento normal del servicio de TI y minimizar el impacto empresarial. Durante el proceso, el equipo detecta e investiga los incidentes, resuelve los problemas y documenta las medidas que toman para restablecer el servicio.

¿Cuáles son los eventos que requieren administración de incidentes?

El término administración de incidentes no se utiliza exclusivamente en el campo de TI. Fuera del ámbito de TI, oirá hablar de la administración de incidentes en campos como los servicios de emergencia, la gestión de eventos a gran escala y las operaciones de planta.

A efectos de este artículo, nos referimos a la administración de incidentes en el contexto de la administración de servicios de TI (ITSM). En este aspecto, la administración de incidentes se centra en las actividades de administración relacionadas con la calidad del servicio y el propio servicio al cliente.

A continuación, analizamos diferentes eventos de TI dentro del ámbito de la administración de incidentes en ITSM.

Incidente

Dentro de la administración de incidentes, los incidentes se pueden definir como eventos inesperados que provocan una caída en la calidad esperada o acordada del servicio de TI. La escala del incidente puede ser pequeña o grande, y usted puede indicar su gravedad. Por ejemplo, la caída en la calidad del servicio podría ser mínima y limitarse a una ubicación geográfica específica. O bien, el servicio puede sufrir una interrupción total en varias regiones.

Problema

Un problema se refiere a la causa subyacente del incidente, que se descubre después de una investigación más profunda y es necesaria para la resolución completa del incidente. Por ejemplo, si un servidor web funciona con lentitud, el problema podría ser una mala configuración del enrutador en el centro de datos o un cable de red cortado en el perímetro.

Cambio

En la administración de incidentes, un cambio se refiere a cuando un servicio en sí mismo cambia para mejorar la calidad o agregar nuevas características, por ejemplo. Durante el periodo de cambio, la renovación debe administrarse con cuidado para evitar o minimizar la interrupción de las operaciones comerciales normales. Esto incluye asesorar a los clientes sobre interrupciones del servicio anticipadas o potenciales.

Solicitud de servicio

Una solicitud de servicio es una solicitud iniciada por el cliente dentro de los límites de los términos del acuerdo entre el proveedor y el cliente. La solicitud debe llevarse a cabo sin interrumpir las operaciones normales.

¿Cómo funciona la administración de incidentes?

La administración de incidentes utiliza un conjunto de procesos documentados que describen claramente lo que se debe hacer para minimizar el impacto negativo y la duración de la interrupción de TI. Además de la administración técnica de lo que salió mal, también incluye la administración de las expectativas de los clientes, los usuarios y las partes interesadas durante un incidente.

Para los clientes, los acuerdos de nivel de servicio (SLA) definen claramente las garantías de tiempo de actividad esperado, los tiempos de resolución y los canales de comunicación para los incidentes. Requiere una administración integral de incidentes por parte del proveedor de servicios para cumplir con los términos y condiciones de su SLA.

Más información sobre los SLA »

Marcos de administración de incidentes de TI

Existen varios marcos que las organizaciones utilizan para modelar su administración de incidentes. Dos ejemplos son la administración de incidentes de la Biblioteca de Infraestructura de TI (ITIL) 4 y el Marco de Ciberseguridad del Instituto Nacional de Normalización y Tecnología (NIST). Estos marcos pueden usarse tal como están o ampliarse para adaptarse a entornos comerciales, servicios y estándares de comunicación con clientes y partes interesadas únicos.

El software de administración de incidentes se utiliza a menudo para implementar un marco dentro de una organización. El marco exacto utilizado depende de los servicios ofrecidos.

 

¿Cuáles son los pasos del proceso de administración de incidentes?

Los pasos involucrados en los procesos de administración de incidentes dependen del marco utilizado dentro de la organización. A continuación, analizamos los pasos principales en muchos marcos comunes del ciclo de vida de administración de incidentes.

Identifique el riesgo

La identificación de activos, sistemas, datos y otros recursos críticos determina dónde residen los mayores riesgos para el negocio. En el contexto de la prestación de servicios a los clientes, implica identificar sus sistemas y activos más valiosos.

Proteja los activos

Una vez que se han identificado los activos, las organizaciones fortalecen los controles de seguridad y rendimiento. Por ejemplo, una aplicación podría implementarse en varias regiones para mantener la disponibilidad en caso de interrupciones regionales. 

Detecte incidentes

Debe tener sistemas implementados para supervisar el estado de los activos críticos para que cualquier incidente pueda identificarse en tiempo real. Las organizaciones deben ser proactivas en la supervisión de anomalías. Por lo general, no es preferible que un cliente se entere primero de una interrupción y la informe él mismo. El énfasis está en la corrección proactiva.

Responda a los incidentes

Una vez que se detecta un incidente, debe detener cualquier interrupción de inmediato. Si esto no es posible, puedes seguir un proceso para contener o limitar el impacto. También es posible que tenga que activar sistemas secundarios para que las operaciones puedan reanudarse aunque no haya una solución rápida.  Gran parte de este proceso puede automatizarse, en función de la naturaleza del incidente y de las herramientas actuales de administración de incidentes.

Recupérese de incidentes

El análisis del incidente comienza en la fase de recuperación. Usted capta las lecciones aprendidas, formula planes de respuesta mejorados y soluciona problemas y procesos. Los incidentes graves pueden requerir importantes esfuerzos de recuperación. La siguiente imagen muestra uno de los procesos de administración de incidentes que utiliza Amazon Web Services (AWS).

¿Cuáles son las prácticas recomendadas de administración de incidentes?

Las prácticas recomendadas ayudan a las organizaciones a operar al nivel más maduro dentro de una unidad de negocio o área estratégica determinada. Si sigue las prácticas recomendadas en los sistemas de administración de incidentes, puede ofrecer el mejor servicio posible a sus clientes.

Desarrolle políticas de escalado

Debería poder clasificar los incidentes según su prioridad y gravedad para guiar los plazos, las soluciones y las investigaciones. Debe promulgar políticas de escalado cuando la respuesta a los incidentes no sea la esperada o si se produce un incidente importante de alta prioridad o gravedad. Sin estas políticas, su equipo podría perder tiempo decidiendo con quién contactar y qué hacer.

Planifique detalladamente las comunicaciones

Las partes interesadas, desde el equipo de TI hasta los usuarios finales, deben mantenerse informadas sobre el estado de los incidentes. También es valioso tener canales de comunicación claros para que los afectados sepan dónde acudir para obtener actualizaciones o informar de nuevos incidentes. Al contar con planes de comunicación claros, puede generar confianza y evitar culpas injustificadas. Los incidentes críticos siempre se tratan con diplomacia. 

Realice un análisis de la causa raíz

Después de resolver un incidente, debe llevar a cabo un análisis de la causa raíz para entender por qué se produjo el incidente. Esto ayuda a identificar brechas o vulnerabilidades en el sistema, que puede abordar para evitar incidentes similares en el futuro. Las lecciones aprendidas de cada incidente son útiles para mejorar continuamente la infraestructura y los procesos informáticos.

Adopte prácticas de ingeniería del caos

La ingeniería del caos es una disciplina de la ingeniería de software en la que los sistemas se someten intencionalmente a condiciones disruptivas, como errores en los servidores, latencias de red o limitaciones de recursos. Incorporar el caos a los sistemas pone a prueba su resiliencia y también fortalece los procesos de administración y respuesta a incidentes de una organización. Esta es una técnica similar a la implementación del hackeo ético en la administración de incidentes de ciberseguridad.

¿Cómo puede satisfacer AWS sus necesidades de administración de incidentes?

AWS cuenta con una gama de servicios que ayudan a las organizaciones a ofrecer una administración eficaz de incidentes en AWS y en entornos híbridos.

La Detección y respuesta a incidentes de AWS ofrece a los clientes de AWS Enterprise Support supervisión proactiva y administración de incidentes para sus cargas de trabajo específicas. Al trabajar con expertos, usted define métricas críticas, alarmas y programas de priorización para un sistema de administración de incidentes de TI a fin de acelerar la recuperación en caso de que se produzca un incidente.

AWS Managed Services (AMS) ayuda a proteger la información de su organización, así como su infraestructura, con las capacidades de respuesta y resolución de incidentes de AWS. AMS puede utilizarse como una forma de externalizar la administración de incidencias de TI de AWS, para que su organización pueda centrarse en el negocio principal. Esto es lo que puede hacer con AMS:

  • Solicitar ayuda con problemas y solicitudes operativas en cualquier momento a través de AWS Support Center en la consola de AWS
  • Acceder a asistencia las 24 horas del día y los 7 días de la semana, con un tiempo de respuesta que depende del nivel de servicio de cuenta seleccionado (Plus, Premium)
  • Recibir notificaciones proactivas de alertas y preguntas importantes con los mismos mecanismos

Como parte del Marco de AWS Well-Architected, también ofrecemos orientaciones claras para la administración de incidentes en la nube. Es un buen recurso para ayudar a planificar la administración de incidentes para las organizaciones que ofrecen sus propios servicios de TI y utilizan los servicios en la nube de AWS. La Guía de respuesta a incidentes de seguridad de AWS es otro material útil para los incidentes relacionados con la seguridad.

Cree una cuenta hoy mismo para comenzar a administrar incidentes en AWS.

Siguientes pasos con AWS

Descubra otros recursos relacionados con el producto
Más información acerca de los servicios de administración y gobernanza  
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo al nivel Gratuito de AWS.

Regístrese 
Comenzar a crear en la consola

Comience a crear en la consola de administración de AWS.

Iniciar sesión