¿Qué es la ingeniería de fiabilidad del sitio?: Explicación sobre la ingeniería de fiabilidad del sitio: AWS

¿Qué es la ingeniería de fiabilidad del sitio?

La ingeniería de fiabilidad del sitio (SRE) consiste en utilizar herramientas de software para automatizar las tareas de infraestructura de TI, como la administración de sistemas y la supervisión de aplicaciones. Las organizaciones utilizan SRE para garantizar que sus aplicaciones de software sigan siendo confiables en medio de actualizaciones frecuentes de los equipos de desarrollo. SRE mejora especialmente la confiabilidad de los sistemas de software escalables porque la administración de un sistema grande mediante software es más sostenible que la administración manual de cientos de máquinas.

¿Por qué es importante la ingeniería de fiabilidad del sitio?

La fiabilidad del sitio describe la estabilidad y la calidad del servicio que ofrece una aplicación después de ponerse a disposición de los usuarios finales. El mantenimiento del software a veces afecta a la fiabilidad del software si no se detectan problemas técnicos. Por ejemplo, cuando los desarrolladores realizan cambios nuevos, pueden afectar inadvertidamente a la aplicación existente y provocar que se bloquee en ciertos casos de uso.

Los siguientes son algunos de los beneficios de las prácticas de ingeniería de fiabilidad del sitio (SRE).

Colaboración mejorada

La SRE mejora la colaboración entre los equipos de desarrollo y operaciones. Los desarrolladores a menudo tienen que hacer cambios rápidos en una aplicación para lanzar nuevas funciones o corregir errores críticos. Por otro lado, el equipo de operaciones debe garantizar una prestación de servicios sin problemas. Por lo tanto, el equipo de operaciones utiliza prácticas de SRE para supervisar de cerca cada actualización y responder con rapidez a cualquier problema que surja debido a los cambios.

Mejore la experiencia de clientes

Las organizaciones utilizan un modelo SRE para garantizar que los errores de software no afecten a la experiencia del cliente. Por ejemplo, los equipos de software utilizan herramientas SRE para automatizar el ciclo de vida del desarrollo de software. Esto reduce los errores, lo que significa que el equipo puede priorizar el desarrollo de nuevas características sobre la corrección de errores.

Planificación de operaciones mejorada

Los equipos de SRE aceptan que existe una posibilidad realista de que el software falle. Por lo tanto, los equipos planifican la respuesta adecuada a los incidentes para minimizar el impacto del tiempo de inactividad en la empresa y los usuarios finales. También pueden estimar mejor el costo del tiempo de inactividad y comprender el impacto de dichos incidentes en las operaciones comerciales.

¿Cuáles son los principios clave de la ingeniería de fiabilidad del sitio?

Los siguientes son algunos principios clave de la ingeniería de fiabilidad del sitio (SRE).

Supervisión de aplicaciones

Los equipos de SRE aceptan que los errores forman parte del proceso de implementación del software. En lugar de esforzarse por encontrar una solución perfecta, monitorean el rendimiento del software en términos de acuerdos de nivel de servicio (SLA), indicadores de nivel de servicio (SLI) y objetivos de nivel de servicio (SLO). Observan y supervisan las métricas de rendimiento después de implementar la aplicación en entornos de producción.

Implementación del cambio gradual

Las prácticas de SRE fomentan la publicación de cambios frecuentes pero pequeños para mantener la fiabilidad del sistema. Las herramientas de automatización de SRE emplean procesos consistentes y repetibles para llevar a cabo lo siguiente:

Reducir los riesgos derivados de los cambios
Proporcionar bucles de retroalimentación para medir el rendimiento del sistema
Aumentar la velocidad y la eficiencia de la implementación del cambio

Automatización para mejorar la fiabilidad

SRE usa políticas y procesos que incorporan principios de fiabilidad en cada paso de la canalización de entrega. Algunas estrategias que resuelven problemas automáticamente son las siguientes:

Desarrollo de puertas de calidad basadas en objetivos de servicio para detectar los problemas antes
Automatización de las pruebas de compilación mediante indicadores de servicio
Toma de decisiones arquitectónicas que garanticen la resiliencia del sistema desde el inicio del desarrollo de software

¿Qué es la observabilidad en la ingeniería de fiabilidad del sitio?

La observabilidad es un proceso que prepara al equipo de software para las incertidumbres cuando el software se pone en marcha para los usuarios finales. Los equipos de ingeniería de fiabilidad del sitio (SRE) usan herramientas para detectar comportamientos anómalos en el software y, lo que es más importante, recopilan información que le sirve a los desarrolladores a comprender las causas del problema. La observabilidad implica recopilar la siguiente información con las herramientas de SRE.

Métricas

Las métricas son valores cuantificables que reflejan el rendimiento de una aplicación o el estado del sistema. Los equipos de SRE usan métricas para determinar si el software consume recursos excesivos o se comporta de manera anormal.

Registros

El software de SRE genera información detallada con marca temporal, denominada registros, en respuesta a eventos específicos. Los ingenieros de software usan registros para comprender la cadena de eventos que conducen a un problema en particular.

Huellas

Las huellas son observaciones de la ruta del código de una función específica en un sistema distribuido. Por ejemplo, proceder al pago de un carro de pedidos puede implicar lo siguiente:

Contabilización del precio con la base de datos
Autenticación con la puerta de enlace de pago
Envío de los pedidos a los proveedores

Las huellas constan de un ID, un nombre y una hora. Ayudan a los desarrolladores de software a detectar problemas de latencia y mejorar el rendimiento del software.

¿Qué es la supervisión en la ingeniería de fiabilidad del sitio?

La supervisión es un proceso de observación de métricas predefinidas en una aplicación. Los desarrolladores deciden qué parámetros son fundamentales para determinar el estado de la aplicación y los configuran en las herramientas de supervisión. Los equipos de ingeniería de fiabilidad del sitio (SRE) recopilan información crítica que refleja el rendimiento del sistema y la visualizan en gráficos.

En SRE, los equipos de software supervisan estas métricas para obtener información sobre la fiabilidad del sistema.

Latencia

La latencia describe el retraso que se produce cuando la aplicación responde a una solicitud. Por ejemplo, el envío de un formulario en un sitio web tarda 3 segundos antes de dirigir a los usuarios a una página web de confirmación.

Tráfico

El tráfico mide la cantidad de usuarios que acceden simultáneamente al servicio. Le sirve a los equipos de software a presupuestar los recursos de computación para mantener un nivel de servicio satisfactorio para todos los usuarios.

Errores

Un error es una condición en la que la aplicación no funciona ni entrega resultados de acuerdo con las expectativas. Por ejemplo, cuando una página web no se carga o una transacción no se lleva a cabo, los equipos de SRE usan herramientas de software para realizar un seguimiento automático de los errores de la aplicación y responder a ellos.

Saturación

La saturación indica la capacidad en tiempo real de la aplicación. Un alto nivel de saturación generalmente se traduce en una degradación del rendimiento. Los ingenieros de fiabilidad del sitio monitorean el nivel de saturación y se aseguran de que esté por debajo de un umbral determinado.

¿Cuáles son las métricas clave en la ingeniería de fiabilidad del sitio?

Los equipos de ingeniería de fiabilidad del sitio (SRE) miden la calidad de la prestación de servicios y la fiabilidad mediante las siguientes métricas.

Objetivos de nivel de servicio

Los objetivos de nivel de servicio (SLO) son metas específicas y cuantificables que el software debe cumplir a un costo razonable en relación con otras métricas, como las siguientes:

Tiempo de actividad o el tiempo que un sistema está en funcionamiento
Rendimiento del sistema
Salida del sistema
Tasa de descarga o la velocidad a la que se carga la aplicación

Un SLO promete la entrega al cliente a través del software. Por ejemplo, establece un SLO de tiempo de actividad del 99,95 % para la aplicación de entrega de alimentos de su empresa.

Indicadores de nivel de servicio

Los indicadores de nivel de servicio (SLI) son las mediciones reales de las métricas que definen un SLO. En situaciones reales, es posible que obtengas valore que coincidan con el SLO o difieran de este. Por ejemplo, su aplicación está en funcionamiento el 99,92 % del tiempo, lo que es inferior al SLO prometido.

Acuerdos de nivel de servicio

Los acuerdos de nivel de servicio (SLA) son documentos legales que establecen las consecuencias cuando no se cumple uno o más SLO. Por ejemplo, el SLA establece que el equipo técnico resolverá el problema de su cliente dentro de las 24 horas posteriores a la recepción del informe. Si el equipo no logra resolver el problema dentro del plazo establecido, es posible que se deba reembolsar al cliente.

Presupuestos de errores

Los presupuestos de errores son el margen de incumplimiento aceptable para un SLO. Por ejemplo, un tiempo de actividad del 99,95 % en el SLO significa que el tiempo de inactividad permitido es del 0,05 %. Si el tiempo de inactividad del software supera el presupuesto de errores, el equipo de software dedica todos los recursos y atención a estabilizar la aplicación.

¿Cómo funciona la ingeniería de fiabilidad del sitio?

La ingeniería de fiabilidad del sitio (SRE) consiste en la incorporación de ingenieros de fiabilidad del sitio en los equipos de desarrollo de software. El equipo de SRE establece las métricas clave para la SRE y crea un presupuesto de errores determinado por el nivel de tolerancia al riesgo del sistema. Si el número de errores es bajo, el equipo de desarrollo puede lanzar nuevas funciones. Sin embargo, si los errores superan el presupuesto de errores permitido, el equipo suspende los nuevos cambios y resuelve los problemas existentes.

Por ejemplo, un ingeniero de fiabilidad del sitio utiliza un servicio para monitorear las métricas de rendimiento y detectar el comportamiento anómalo de las aplicaciones. Si hay problemas con la aplicación, el equipo de SRE envía un informe al equipo de ingeniería de software. Los desarrolladores corrigen los casos denunciados y publican la aplicación actualizada.

DevOps

DevOps es una cultura de software que rompe los límites tradicionales de los equipos de desarrollo y operaciones. Con DevOps, los desarrolladores e ingenieros de operaciones ya no trabajan en silos. En cambio, usan herramientas de software para mejorar la colaboración y mantenerse al día con el rápido ritmo de las versiones de actualizaciones de software.

Diferencias entre SRE y DevOps

SRE es la implementación práctica de DevOps. DevOps proporciona la base filosófica de lo que se tiene que hacer para mantener la calidad del software en medio de los plazos de desarrollo cada vez más cortos. La ingeniería de fiabilidad del sitio ofrece las respuestas sobre cómo lograr el éxito de DevOps. SRE garantiza que el equipo de DevOps logre el equilibrio correcto entre velocidad y estabilidad.

¿Cuáles son las responsabilidades de un ingeniero de fiabilidad del sitio?

Un ingeniero de fiabilidad del sitio es un experto en TI que utiliza herramientas de automatización para supervisar y observar la fiabilidad del software en el entorno de producción. También tienen experiencia en encontrar problemas en el software y escribir códigos para solucionarlos. Por lo general, son antiguos administradores de sistemas o ingenieros de operaciones con buenos conocimientos de codificación. Las siguientes son algunas de las responsabilidades de fiabilidad del sitio.

Operaciones

Los ingenieros de fiabilidad del sitio dedican hasta el 50 % de su tiempo a tareas operativas. Esto incluye varias tareas, como las siguientes:

Respuesta ante incidentes de emergencia
Administración de cambios
Administración de la infraestructura de TI

Los ingenieros utilizan herramientas de SRE para automatizar diversas tareas operativas y mejorar la eficiencia del equipo.

Soporte del sistema

Los ingenieros de fiabilidad del sitio trabajan en estrecha colaboración con el equipo de desarrollo para crear nuevas características y estabilizar los sistemas de producción. Crean un proceso de SRE para todo el equipo de software y están disponibles para dar soporte a los problemas de escalamiento. Y lo que es más importante, los equipos de fiabilidad del sitio proporcionan procedimientos documentados al servicio de atención al cliente para ayudarlos a tratar las quejas de manera efectiva.

Mejora de procesos

Los ingenieros de fiabilidad del sitio mejoran el ciclo de vida del desarrollo de software al realizar revisiones posteriores a los incidentes. El equipo de SRE documenta todos los problemas de software y las soluciones respectivas en una base de conocimientos compartida. Esto le sirve al equipo de software a responder de manera eficiente a problemas similares en el futuro.

¿Cuáles son las herramientas más utilizadas en la ingeniería de fiabilidad del sitio (SRE)?

Los equipos de ingeniería de fiabilidad del sitio (SRE) emplean diversas herramientas para facilitar la supervisión, la observabilidad y la respuesta ante incidentes.

Orquestador de contenedores

Los desarrolladores de software utilizan un orquestador de contenedores para ejecutar aplicaciones en contenedores en múltiples plataformas. Las aplicaciones en contenedores agrupan archivos de código y recursos relacionados en un único paquete denominado “contenedor”. Por ejemplo, los ingenieros de software utilizan Amazon Elastic Kubernetes Service (Amazon EKS) para ejecutar y escalar aplicaciones en la nube.

Herramientas de administración de guardia

Las herramientas de gestión de turnos de guardia son soluciones de software que permiten a los equipos de SRE planificar, organizar y administrar al personal encargado de atender los problemas de software reportados. Los equipos de SRE utilizan el software para garantizar la disponibilidad continua de personal de asistencia, con el fin de recibir alertas oportunas sobre problemas de software.

Herramientas de respuesta ante incidentes

Las herramientas de respuesta ante incidentes garantizan una ruta clara para escalar los problemas de software detectados a las instancias correspondientes. Los equipos de SRE utilizan herramientas de respuesta a incidentes para categorizar la gravedad de los casos notificados y tratarlos con prontitud. Las herramientas también pueden proporcionar informes de análisis posteriores al incidente para evitar la repetición de problemas similares.

Herramientas de administración de configuración

Las herramientas de administración de la configuración son soluciones de software que automatizan el flujo de trabajo asociado al software. Los equipos de SRE utilizan estas herramientas para eliminar tareas repetitivas y aumentar la productividad. Por ejemplo, los ingenieros de fiabilidad del sitio utilizan AWS OpsWorks para configurar y administrar automáticamente los servidores en los entornos de AWS.

¿Cómo contribuye AWS con la ingeniería de fiabilidad del sitio?

Los servicios de administración y gobernanza de AWS brindan las herramientas necesarias para que el equipo de software cree, escale e implemente aplicaciones distribuidas sin comprometer la fiabilidad del sistema. Los equipos de ingeniería de fiabilidad del sitio (SRE) utilizan varios servicios de administración y gobernanza de AWS para supervisar y gobernar los recursos de computación locales y de AWS:

AWS Service Catalog permite a los equipos de SRE catalogar, administrar e implementar de forma rápida los servicios de TI
AWS Systems Manager proporciona un centro de administración centralizado para que los ingenieros de fiabilidad del sitio obtengan información operativa sobre los recursos de computación de software
AWS Proton es una herramienta de administración automatizada para implementar aplicaciones en contenedores y sin servidor

Para comenzar a utilizar la ingeniería de fiabilidad de sitios en AWS, cree una cuenta de AWS hoy mismo.

¿Qué es la ingeniería de fiabilidad del sitio (SRE)?