Casos de uso de ejemplo

Mediante la investigación sistemática de las alarmas derivadas de cambios en el sistema, anomalías de entrada, límites de recursos, errores de componentes y problemas de dependencias en toda la pila, AWS DevOps Agent guía a los equipos de DevOps con pasos de mitigación específicos, lo que reduce el tiempo medio de resolución (MTTR) de horas a minutos. Por ejemplo: Cambios en el sistema: si un incidente se debe a la limitación de Amazon DynamoDB porque se ha introducido un cambio reciente en el código que provoca una alta latencia debido a un uso ineficiente, AWS DevOps Agent puede recomendar la reversión del cambio como medida de mitigación inmediata. Cambios en el sistema: si un incidente se debe a errores de suscripción a Amazon SNS porque hay una falta de coincidencia en la política de filtros tras la implementación de un código, AWS DevOps Agent puede recomendar la reversión del cambio en el código que alteró la estructura de los mensajes como medida de mitigación inmediata para restaurar el flujo de mensajes. Anomalías de entrada: si un incidente se debe a que AWS Lambda limita las notificaciones porque el tráfico supera los límites, AWS DevOps Agent puede recomendar un aumento de los límites de simultaneidad como medida de mitigación inmediata. Anomalías de entrada: si un incidente se debe a errores en la publicación de mensajes de Amazon SNS porque hay problemas de tamaño de los mensajes, AWS DevOps Agent puede recomendar agregar la validación a la publicación de mensajes de Amazon SNS como medida de mitigación inmediata. Límites de recursos : si un incidente se debe a la limitación de la API porque se han superado los límites de velocidad, AWS DevOps Agent puede recomendar un aumento de los límites de velocidad y ráfaga como medida de mitigación inmediata. Límites de recursos: si un incidente se debe a la limitación de Amazon DynamoDB porque se ha superado la capacidad de escritura, AWS DevOps Agent puede recomendar un aumento de la capacidad de escritura como medida de mitigación inmediata. Errores de componentes: si un incidente se debe a una latencia de arranque en frío porque se ha degradado el rendimiento, AWS DevOps Agent puede recomendar un aumento de la simultaneidad aprovisionada como medida de mitigación inmediata.

AWS DevOps Agent

Productos›
Operaciones en la nube›
Características de AWS DevOps Agent

Características de AWS DevOps Agent

Respuesta a incidentes autónoma y siempre activa
5
Prevención proactiva de futuros incidentes
5
Saque más partido a sus herramientas de DevOps
3

Respuesta a incidentes autónoma y siempre activa

Abrir todo

AWS DevOps Agent se integra con sistemas de creación de tickets y alarmas, como ServiceNow, para iniciar automáticamente investigaciones a partir de los tickets de incidentes, lo que acelera la respuesta a los incidentes dentro de los flujos de trabajo existentes para reducir el tiempo medio de resolución (MTTR).

También puede iniciar y guiar las investigaciones mediante un chat interactivo. AWS DevOps Agent actúa como miembro de su equipo de operaciones y trabaja directamente en sus herramientas de colaboración, como ServiceNow y Slack, para compartir los resultados y coordinar la respuesta. Cuando sea necesario, cree un caso de AWS Support directamente a partir de una investigación para ofrecer a los expertos de AWS Support contexto inmediato a fin de que conseguir una resolución más rápida.

AWS DevOps Agent se integra con herramientas de observabilidad, repositorios de código y canalizaciones de CI/CD para correlacionar y analizar los datos de telemetría, código e implementación, y compartir sus hipótesis exploradas, observaciones y resultados de la causa raíz. Mediante las investigaciones sistemáticas, AWS DevOps Agent identifica la causa raíz de los problemas derivados de cambios en el sistema, anomalías de entrada, límites de recursos, errores de componentes y problemas de dependencias en todo el entorno.

Una vez que AWS DevOps Agent identifique la causa principal, proporciona planes de mitigación detallados, con acciones para resolver el incidente, validar el éxito y revertir un cambio si es necesario. AWS DevOps Agent también proporciona instrucciones listas para el agente que otro agente de fronera puede implementar; por ejemplo, mejoras de código que puede implementar el agente autónomo de Kiro.

Mediante la investigación sistemática de las alarmas derivadas de cambios en el sistema, anomalías de entrada, límites de recursos, errores de componentes y problemas de dependencias en toda la pila, AWS DevOps Agent guía a los equipos de DevOps con pasos de mitigación específicos, lo que reduce el tiempo medio de resolución (MTTR) de horas a minutos. Por ejemplo:

Cambios en el sistema: si un incidente se debe a la limitación de Amazon DynamoDB porque se ha introducido un cambio reciente en el código que provoca una alta latencia debido a un uso ineficiente, AWS DevOps Agent puede recomendar la reversión del cambio como medida de mitigación inmediata.
Cambios en el sistema: si un incidente se debe a errores de suscripción a Amazon SNS porque hay una falta de coincidencia en la política de filtros tras la implementación de un código, AWS DevOps Agent puede recomendar la reversión del cambio en el código que alteró la estructura de los mensajes como medida de mitigación inmediata para restaurar el flujo de mensajes.
Anomalías de entrada: si un incidente se debe a que AWS Lambda limita las notificaciones porque el tráfico supera los límites, AWS DevOps Agent puede recomendar un aumento de los límites de simultaneidad como medida de mitigación inmediata.
Anomalías de entrada: si un incidente se debe a errores en la publicación de mensajes de Amazon SNS porque hay problemas de tamaño de los mensajes, AWS DevOps Agent puede recomendar agregar la validación a la publicación de mensajes de Amazon SNS como medida de mitigación inmediata.
Límites de recursos: si un incidente se debe a la limitación de la API porque se han superado los límites de velocidad, AWS DevOps Agent puede recomendar un aumento de los límites de velocidad y ráfaga como medida de mitigación inmediata.
Límites de recursos: si un incidente se debe a la limitación de Amazon DynamoDB porque se ha superado la capacidad de escritura, AWS DevOps Agent puede recomendar un aumento de la capacidad de escritura como medida de mitigación inmediata.
Errores de componentes: si un incidente se debe a una latencia de arranque en frío porque se ha degradado el rendimiento, AWS DevOps Agent puede recomendar un aumento de la simultaneidad aprovisionada como medida de mitigación inmediata.

Prevención proactiva de futuros incidentes

Abrir todo

AWS DevOps Agent analiza los patrones de los incidentes históricos para ofrecer recomendaciones prácticas que refuerzan cuatro áreas clave: la observabilidad, la optimización de la infraestructura, la mejora de las canalizaciones de implementación y la resiliencia de las aplicaciones. Por ejemplo, en lo relativo a la optimización de la infraestructura, AWS DevOps Agent recomienda Horizontal Pod Autoscaler (HPA) de Kubernetes para que los clústeres de EKS gestionen los picos de tráfico inesperados.

AWS DevOps Agent identifica las brechas en la cobertura de la observabilidad y las oportunidades para ajustar las alarmas con precisión, lo que reduce el tiempo medio de detección (MTTD) y le permite identificar los problemas antes de que se conviertan en un problema mayor. Por ejemplo, después de identificar que la detección de incidentes para los errores recientes ha sido demasiado lenta, AWS DevOps Agent puede recomendar la implementación de la supervisión y la detección de anomalías más cerca del origen del error para reducir el tiempo de detección y evitar interrupciones prolongadas.

Mediante un bucle de aprendizaje, AWS DevOps Agent sigue mejorando sus recomendaciones, las ajusta a sus prioridades operativas y ofrece recomendaciones cada vez más relevantes y adaptadas a las necesidades de su organización en función de los comentarios del equipo sobre las recomendaciones.

AWS DevOps Agent analiza los patrones de los incidentes históricos para ofrecer recomendaciones específicas que eviten futuras interrupciones y refuercen la resiliencia del sistema. Al evaluar los incidentes reales, ofrece mejoras específicas y viables que reducen la frecuencia y el impacto de los problemas similares en cuatro áreas principales: observabilidad, optimización de la infraestructura, mejora de las canalizaciones de implementación y resiliencia de las aplicaciones.

Mejora de la observabilidad: AWS DevOps Agent puede recomendar un ajuste de los umbrales de alarma de 15 errores en 20 minutos a 3 errores en 5 minutos para los sistemas de autenticación críticos a fin de reducir el tiempo de detección y evitar interrupciones prolongadas de la integración.
Mejora de la observabilidad: AWS DevOps Agent puede recomendar la implementación de filtros de métricas de CloudWatch específicos para rastrear los patrones anómalos de acceso denegado para los cambios de roles de IAM, lo que mejora la rapidez de las detecciones en comparación con las alarmas anteriores.
Mejora de la infraestructura: tras analizar que el esquema de tablas de Amazon DynamoDB no coincide con el patrón de acceso principal del servicio (lo que obliga a realizar análisis poco eficientes de tablas completas), AWS DevOps Agent recomienda la creación de un índice secundario global (GSI) con el atributo consultado con frecuencia como clave de partición. Esto transformaría las operaciones de análisis a consultas, lo que reduciría la latencia de 2500 a 3500 ms a menos de 100 ms y evitaría la limitación.
Mejora de la infraestructura: el análisis de AWS DevOps Agent indica que la aplicación cuenta con los recursos adecuados, pero está limitada por un cuello de botella con un solo pod en el que todas las solicitudes pasan a una sola instancia durante los picos de tráfico. Es posible que AWS DevOps Agent recomiende agregar Horizontal Pod Autoscaler al clúster de Kubernetes, lo que escalará horizontalmente el servicio de forma automática en función de la demanda y distribuirá la carga de manera efectiva entre varios pods.
Canalización de implementación: después de analizar las implementaciones con errores de Amazon ECS, AWS DevOps Agent puede recomendar habilitar las reversiones automáticas y supervisar los estados de implementación con Amazon EventBridge. Estos cambios detectarán y resolverán rápidamente los errores de comprobación de estado de las tareas, lo que evitará la interrupción de las transacciones de los clientes.
Canalización de implementación: tras analizar los errores de implementación, AWS DevOps Agent puede recomendar la validación obligatoria previa a la implementación de la conectividad con Amazon Managed Service para Prometheus para las definiciones de tareas de Amazon ECS. Esta recomendación reduciría las implementaciones con errores al detectar los problemas de conectividad durante el proceso de implementación.

Saque más partido a sus herramientas de DevOps

Abrir todo

A medida que AWS DevOps Agent aprende sobre su entorno, identifica los recursos de las aplicaciones, como los contenedores, los componentes de red, los grupos de registro, las alarmas y las implementaciones de CI/CD, y mapea cómo se conectan para crear un mapa de los recursos de las aplicaciones. Combina esta topología de recursos con sus datos de telemetría, código e implementación para identificar con precisión las causas raíz de los problemas.

AWS DevOps Agent ofrece integraciones incorporadas con muchas herramientas de observabilidad (Amazon CloudWatch, Dynatrace, Datadog, New Relic y Splunk), repositorios de código y canalizaciones de CI/CD (GitHub Actions y repositorios, flujos de trabajo y repositorios de GitLab).

Para ampliar AWS DevOps Agent más allá de sus integraciones incorporadas, conéctelo a su propio servidor MCP, lo que permite integrarlo con más herramientas, como las herramientas personalizadas, las plataformas especializadas o los sistemas de creación de tickets patentados de su organización. Por ejemplo, al conectarse a su propio servidor MCP, puede integrarlo con señales de observabilidad de código abierto, como las alarmas de Grafana y las métricas y manuales de procedimientos de Prometheus en Confluence.

Pasos siguientes

Consola

Pruebe AWS DevOps Agent

Más información

Documentación

Comience a usar AWS DevOps Agent

Más información

Blog

Acelere la respuesta a los incidentes y mejore la fiabilidad del sistema

Más información

Demostración

Vea AWS DevOps Agent en acción

Más información

¿Ha encontrado lo que buscaba hoy?

Ayúdenos a mejorar la calidad del contenido de nuestras páginas compartiendo sus comentarios

Características de AWS DevOps Agent

Respuesta a incidentes autónoma y siempre activa

Prevención proactiva de futuros incidentes

Saque más partido a sus herramientas de DevOps

Pasos siguientes

Pruebe AWS DevOps Agent

Comience a usar AWS DevOps Agent

Acelere la respuesta a los incidentes y mejore la fiabilidad del sistema

Vea AWS DevOps Agent en acción

¿Ha encontrado lo que buscaba hoy?

Aprender

Recursos

Desarrolladores

Ayuda

Características de AWS DevOps Agent

Respuesta a incidentes autónoma y siempre activa

Investigaciones automatizadas

Coordinación de incidentes

Análisis de la causa raíz

Planes de mitigación detallados

Casos de uso de ejemplo

Prevención proactiva de futuros incidentes

Recomendaciones específicas

Detección temprana de los problemas

Aprendizaje continuo

Impulso continuo de mejoras en los servicios

Casos de uso de ejemplo

Saque más partido a sus herramientas de DevOps

Mapeo de los recursos de las aplicaciones

Integraciones incorporadas

Conéctelo a su propio servidor MCP

Pasos siguientes

Pruebe AWS DevOps Agent

Comience a usar AWS DevOps Agent

Acelere la respuesta a los incidentes y mejore la fiabilidad del sistema

Vea AWS DevOps Agent en acción

¿Ha encontrado lo que buscaba hoy?

Aprender

Recursos

Desarrolladores

Ayuda