Observabilidad

Obtenga información y mejore el rendimiento de sus aplicaciones, usuarios e infraestructura

¿Qué es la observabilidad?

“¿Mi sistema funciona o no?” “¿Es rápido o lento según la experiencia de mis usuarios finales?” “¿Qué KPI y SLA debemos establecer y cómo sabemos si se cumplen?” Cuando se opera a la velocidad y escala de la nube, no se puede permitir volar a ciegas: hay que ser capaz de responder a una amplia gama de preguntas operativas y empresariales como éstas. Tiene que ser capaz de detectar los problemas a medida que surgen (idealmente antes de que interrumpan la experiencia del cliente), responder rápidamente y resolverlos lo antes posible. Para obtener esta información, necesita sistemas observables.

Monitoreo y observabilidad

La “observabilidad” describe lo bien que se puede entender lo que ocurre en un sistema, a menudo mediante instrumentos para recopilar métricas, registros o rastreos. En la nube, la observabilidad puede volverse difícil de conseguir debido a la complejidad del sistema. Ya sea en los centros de datos o en la nube, para lograr excelencia operacional y cumplir con los objetivos del negocio, debe comprender cómo se desempeñan sus sistemas. Las soluciones de observabilidad permiten recopilar y analizar los datos de las aplicaciones y la infraestructura para que pueda comprender sus estados internos y recibir alertas a fin de solucionar y resolver problemas con la disponibilidad y el rendimiento de la aplicación para mejorar la experiencia del usuario final. 

¿Cuál es la diferencia entre la observabilidad y el monitoreo?

Aunque a veces el término “monitoreo” se define como algo diferente a la observabilidad, el monitoreo es una actividad que hace que el sistema sea observable, junto con otras actividades como el rastreo y el registro. Generalmente verá que se describe al monitoreo, el rastreo y el registro como los “tres pilares de la observabilidad”. Sin embargo, existen otras herramientas para ayudarlo a lograr la observabilidad, como generadores de perfiles e IA/Operaciones, que se analizan a continuación.

¿Qué me ayuda a realizar la observabilidad?

La observabilidad permite detectar e investigar problemas.

Detección

La detección a tiempo de un problema (idealmente antes de que afecte a los usuarios finales) es el primer paso en la observabilidad. La detección debe ser proactiva y tener varias facetas, y debe incluir alarmas cuando se interrumpan los umbrales de rendimiento, las pruebas sintéticas y la detección de anomalías. Una métrica de rendimiento común es el tiempo promedio de detección (MTTD). Puede mejorar el MTTD con un número de actividades y herramientas:


Monitoreo

Las herramientas de monitoreo registran las estadísticas de rendimiento a lo largo del tiempo para que se puedan identificar patrones de uso. Los agentes de monitoreo registran métricas seleccionadas en intervalos establecidos y almacenan los datos resultantes en un formato de series de tiempo.

Monitoreo del rendimiento de la aplicación

El monitoreo del rendimiento de la aplicación (APM) permite monitorear la experiencia del cliente final desde navegadores y dispositivos móviles a través de varias capas de pilas de la aplicación. El APM comienza con el monitoreo frontend al medir y monitorear la experiencia de los clientes desde el navegador o el dispositivo móvil. En el centro del APM, el descubrimiento, rastreo y diagnóstico de las aplicaciones es la habilidad para identificar qué parte de una aplicación causa problemas de rendimiento y señalar rápidamente la razón.

Alertas

Cuando algo sale mal, debe recibir alertas a tiempo. Sin embargo, la detección demasiado sensible puede causar una fatiga de alarmas, por lo que la administración de alertas también es clave.

Detección de anomalías e IA/Operaciones

Ahora una nueva generación de herramientas trae el poder de la inteligencia artificial y machine learning a la observabilidad, al utilizar los modelos de machine learning para identificar comportamientos anómalos de la aplicación y descubrir asuntos críticos antes de que causen tiempo de inactividad o interrupciones del servicio.

Monitoreo de infraestructura

El monitoreo de infraestructura permite correlacionar las métricas y los registros de una pila de infraestructura para comprender y resolver las causas raíz de los problemas de rendimiento.

Monitoreo de la experiencia digital

El monitoreo de la experiencia digital (DEM) proporciona información sobre la experiencia del usuario final que interactúa con el sistema al recopilar la actividad de su navegador, aplicación móvil o interacción de voz. Las transacciones sintéticas involucran la creación de scripts para emular el comportamiento del usuario final al interactuar con un sistema, a fin de que se pueda monitorear y probar incluso cuando no sea una carga real. El monitoreo del usuario real (RUM) combina el monitoreo de la disponibilidad de un sitio web o API para recibir solicitudes de diferentes puntos de presencia alrededor del mundo, con pruebas A/B automáticas.

Generación de perfiles

Las herramientas de generación de perfiles toman una muestra de las medidas en intervalos regulares. Por ejemplo, para las unidades de procesamiento central (CPU) generalmente se generan perfiles al tomar muestras de intervalos de tiempo de los patrones de código en la CPU.

Telemetría

La telemetría es la instrumentación de los sistemas (generalmente a través de agentes de monitoreo) para que puedan recopilar datos sobre cómo se desempeñan esos sistemas. Una vez que la telemetría esté en su lugar, un sistema comienza a producir datos que se pueden monitorear. Sin embargo, dentro de una empresa cada equipo puede utilizar una herramienta diferente, lo que ha causado una proliferación de los agentes de monitoreo que se debe incluir en la base del código de una empresa, o debe volver a instrumentar si decide utilizar herramientas diferentes o adicionales. El proyecto OpenTelemetry hace posible instrumentar las aplicaciones una vez y enviar los rastreos y métricas correlativos a diferentes soluciones de monitoreo.

Investigación

La investigación es la fase que más tiempo lleva en un evento operacional. Cuando las cosas salen mal, puede ser difícil comprender qué es lo más importante para reparar. Utilizar diferentes fuentes de observabilidad juntas puede ayudarlo a investigar rápidamente para comprender la causa raíz, pero a fin de realizar esto de manera efectiva, debe correlacionar los datos en las métricas, registros y rastreos. 


Rastreo

El rastreo registra eventos de sistemas, como una solicitud HTTP de un cliente. En el rastreo distribuido, los detalles capturados sobre el evento incluyen la ruta de la solicitud a través de diferentes servicios/aplicaciones, junto con métricas sobre la solicitud como la latencia en cada paso del recorrido.

Herramientas de visualización

La observabilidad, especialmente a escala de la nube, puede generar enormes volúmenes de datos que resultan difíciles de analizar para los humanos. Las herramientas de visualización nos ayudan a dar sentido a los datos rápidamente, al correlacionar los datos observables en pantallas gráficas intuitivas.

¿Cuándo utilizo la observabilidad?

Comprenda el estado y el rendimiento de las aplicaciones para mejorar la experiencia del cliente

El objetivo principal de la observabilidad es saber lo que ocurre, en cualquier lugar y en todas partes, en el sistema para poder garantizar la mejor experiencia posible a los usuarios finales. Quiere detectar los problemas rápidamente, investigarlos con eficacia y solucionarlos lo antes posible a fin de minimizar el tiempo de inactividad y otras interrupciones para sus clientes; una métrica común es el tiempo promedio de recuperación (MTTR).

Mejorar la productividad de desarrollo

La depuración tradicional, mediante el análisis de registros o la instrumentación de puntos de interrupción en el código, es tediosa, repetitiva y requiere mucho tiempo, y no se adapta bien a las aplicaciones de producción o a las creadas con una arquitectura de microservicios o sin servidor. Para analizar el rendimiento de las aplicaciones distribuidas, los desarrolladores necesitan métricas y rastreos correlacionados a fin de identificar el impacto en el usuario desde cualquier fuente y para encontrar rutas de código rotas o costosas lo antes posible. Deben hacer todo esto sin tener que volver a instrumentar su código cuando quieran agregar herramientas de observabilidad nuevas a su kit. Las herramientas de observabilidad correctas pueden ayudar a los desarrolladores a codificar y probar de una manera más rápida y mejor.

Mejorar la efectividad y la eficiencia operacional

La observabilidad puede ayudarlo a encontrar mejoras en el rendimiento en su flota en la nube, lo que también permite reducir costos. Por ejemplo, en miles o cientos de miles de instancias, un pequeño porcentaje de mejora del rendimiento en la cantidad de CPU que utiliza una aplicación puede agregar un ahorro de millones de dólares. De forma similar, al utilizar la observabilidad a fin de comprender y predecir sus necesidades futuras de capacidad, puede aprovechar los ahorros disponibles para las reservas y el precio de las instancias de spot.

¿Qué soluciones de observabilidad ofrece AWS?

Servicios de AWS

Nuestras soluciones de observabilidad nativas de AWS han sido desarrolladas desde cero para observar otros servicios de AWS, para operar en la escala de la nube y proporcionar seguridad de nivel empresarial.

Captura datos operacionales de forma automática desde sus aplicaciones de AWS y aplica modelos de machine learning informados por años de Amazon.com y excelencia operacional de AWS para identificar comportamientos anómalos de las aplicaciones y detectar problemas críticos antes de que causen tiempo de inactividad o interrupciones del servicio.

Realiza un rastreo distribuido a través de diferentes aplicaciones y sistemas a fin de ayudar a encontrar latencia en un sistema y abordarlo para mejorarlo.

Captura datos operacionales de forma automática desde sus aplicaciones de AWS y aplica modelos de machine learning informados por años de Amazon.com y excelencia operacional de AWS para identificar comportamientos anómalos de las aplicaciones y detectar problemas críticos antes de que causen tiempo de inactividad o interrupciones del servicio.

Detecte los patrones de códigos más intensivos de CPU en una aplicación mediante gráficos de llama y optimice su código para mejorar el rendimiento y reducir los costos de infraestructura. 

Código abierto

Ofrecemos servicios basados en el popular software de observabilidad de código abierto y totalmente compatibles con él. Puede seguir utilizando las herramientas familiares en las que ya invirtió, a la vez que evita la pesada carga indiferenciada del escalado y seguridad.

Una distribución segura, lista para la producción y compatible con AWS del proyecto OpenTelemetry. Utilícelo para instrumentar las aplicaciones una vez, enviar los rastreos y métricas correlativos a diferentes soluciones de monitoreo de AWS y los socios.

Un servicio de monitoreo administrado basado y compatible con Prometheus, la conocida solución de monitoreo y alerta de código abierto optimizada para entornos de contenedores. Utilice el lenguaje Prometheus Query Language (PromQL) para monitorear el rendimiento de cargas de trabajo de contenedores.

 Un servicio completamente administrado basado en Grafana, la conocida plataforma de análisis de código abierto. Consulte, visualice, alerte y comprenda las métricas sin importar dónde se encuentren almacenadas. Cree, explore y comparta los paneles de observabilidad. 

Amazon OpenSearch Service permite llevara a cabo fácilmente análisis interactivo de registros, monitoreo de aplicaciones en tiempo real, búsqueda de sitios web y mucho más. OpenSearch es un conjunto de búsqueda y análisis distribuido de código abierto derivado de Elasticsearch. Amazon OpenSearch Service ofrece las últimas versiones de OpenSearch, compatibilidad con 19 versiones de Elasticsearch (versiones 1.5 a 7.10) y capacidades de visualización con tecnología de OpenSearch Dashboards y Kibana (versiones 1.5 a 7.10).

Historias de clientes

Mapbox

Mapbox

Mapbox es una plataforma cartográfica de código abierto para el diseño de mapas personalizados que llega a más de 300 millones de personas cada mes. Mapbox utiliza Amazon CloudWatch para la ingesta de múltiples fuentes de datos, incluidas las métricas nativas de AWS, las métricas personalizadas y los registros, así como para el monitoreo y visualización de cargas de trabajo clave y la optimización de recursos.

“Buscábamos consolidar el monitoreo, el registro, las métricas y las alertas en una sola herramienta. CloudWatch nos ha ayudado a aliviar la carga operativa de instalar, configurar y aprender a usar sistemas de terceros. Nuestros equipos utilizan CloudWatch ampliamente para supervisar las tasas de error y los códigos de estado de múltiples cargas de trabajo de alto perfil. También utilizamos CloudWatch para automatizar las acciones de Auto Scaling, lo que nos permite optimizar el costo de los tipos de instancia de Amazon EC2 que alimentan nuestros clústeres de Amazon ECS. CloudWatch Events nos permite proporcionar información sobre la utilización y los precios a los equipos para que puedan auditar la seguridad de las cuentas, desencadenar acciones de AWS Lambda para casos de uso de conformidad y seguridad, y programar nuestros recursos utilizando la nube. CloudWatch permite una automatización de siguiente nivel y amplía la capacidad de cada individuo”.

Emily McAfee, directora de Ingeniería de Plataformas Mapbox

Pushpay

Pushpay

El propósito de Pushpay es unir a las personas fortaleciendo la comunidad, la conexión y la pertenencia. Creamos soluciones de gran calidad para la publicación de donaciones y aplicaciones móviles con el fin de que las organizaciones puedan hacer crecer sus comunidades.

“Nuestra solución actual de análisis de registros requiere una sobrecarga de configuración y mantenimiento, tiene diferentes requisitos de retención y su coste es prohibitivo, lo que hace imposible que nuestro equipo de ingeniería pueda acceder a los registros y consultarlos tanto en entornos de desarrollo como de pruebas. Con CloudWatch Logs Insights, ahora podemos consultar los registros dentro de CloudWatch Logs, pues se reduce la complejidad operativa. El pago por consulta nos da flexibilidad para escalar a nuestro propio ritmo y nuestros ingenieros pueden empezar a consumir y consultar los registros sin esperar a la configuración, la integración y la ingesta con nuestra solución actual. También nos beneficiamos de la visualización de las métricas y los registros, lo que permite solucionar los problemas con mayor rapidez. Logs Insights es una solución eficaz y poco costosa para que nuestros ingenieros supervisen sus aplicaciones y realicen una inmersión en los registros, todo ello desde una única consola de AWS”.

Peter Goodman, director de Ingeniería de Fiabilidad del Sitio de Pushpay

SendGrid

SendGrid

SendGrid es un proveedor de correo electrónico en la nube y envía más de 40 000 millones de correos electrónicos al mes para más de 69 000 clientes de pago. SendGrid adoptó Amazon CloudWatch al principio de su migración a AWS para obtener visibilidad del sistema, información operativa y optimización de recursos.

“CloudWatch nos permite recopilar métricas de servicios de AWS como Amazon EC2, Amazon Kinesis, Amazon DynamoDB y Amazon API Gateway, así como registros de funciones de AWS Lambda. Nos gustó poder integrarnos de forma nativa, sin necesidad de una stack administrada por cuenta propia o de un proveedor de SaaS externo. Esto nos ayudó para empezar a alertar, usar el Auto Scaling y planificar la capacidad muy rápidamente. El hecho de poder abordar nuestros principales casos de uso de forma rápida y sencilla convirtió a CloudWatch en una de las soluciones preferidas”.

Joshua Barrat, arquitecto II de SendGrid

Descubra lo que es la observabilidad de forma práctica

Eche un vistazo al taller interactivo y de inmersión One Observability y obtenga experiencia práctica en el uso de Amazon CloudWatch y AWS X-Ray. En el taller, implementará una aplicación compleja de microservicios y configurará el monitoreo y la observabilidad en un entorno moderno. Terminará con una clara comprensión de los registros, las métricas, el monitoreo de contenedores y sin servidores, y las técnicas de rastreo.

Comenzar el taller 
Novedades
Fecha (de la más reciente a la más antigua)
  • Fecha (de la más reciente a la más antigua)
1
No se encontraron resultados.
Blog
Fecha
  • Fecha
1
No se encontraron blogs que coincidan con esos criterios.

Descubra otros casos de uso para gestionar y gobernar en AWS

Page-Illo_AWS-Management-Governance_Open and Custom Resource Provisioning
Aprovisionamiento y organización »

Cree, aprovisione y comparta recursos

Page-Illo_AWS-Management-Governance_Automated Configuration Compliance and Auditing
Configuración, conformidad y auditoría »

Realice auditorías de las configuraciones de los recursos y corrija los errores

Page-Illo_AWS-Management-Governance_Centralized and Automated Operations Management
Administración de operaciones centralizada »

Administre las operaciones en la nube

Page-Illo_AWS-Management-Governance_Governance at Scale
Gobernanza y control empresarial »

Establezca un entorno de AWS administrado de manera central, seguro y de varias cuentas