- Prodotti›
- Operazioni cloud›
- Funzionalità dell’agente AWS DevOps
Funzionalità dell’agente AWS DevOps
Risposta agli incidenti sempre attiva e autonoma
Apri tuttoL’agente AWS DevOps si integra con sistemi di ticketing e allarmi come ServiceNow per avviare automaticamente le indagini dai ticket di incidente, accelerando la risposta agli incidenti all'interno dei flussi di lavoro esistenti per ridurre il tempo medio di risoluzione (MTTR).
Puoi anche avviare e guidare le indagini utilizzando la chat interattiva. L’agente AWS DevOps agisce come membro del tuo team operativo, lavorando direttamente all'interno dei tuoi strumenti di collaborazione come ServiceNow e Slack per condividere i risultati e coordinare la risposta. Se necessario, crea un caso per il Supporto AWS direttamente da un'indagine, fornendo agli esperti del supporto AWS un contesto immediato per una risoluzione più rapida.
L’agente AWS DevOps si integra con strumenti di osservabilità, repository di codice e pipeline CI/CD per correlare e analizzare dati di telemetria, codice e implementazione, condividendo le ipotesi esplorate, le osservazioni e gli esiti delle cause principali. Attraverso indagini sistematiche, l’agente AWS DevOps identifica la causa principale dei problemi derivanti da modifiche al sistema, anomalie di input, limiti di risorse, guasti dei componenti e problemi di dipendenza nell'intero ambiente.
Una volta identificata la causa principale, l’agente AWS DevOps fornisce piani di mitigazione dettagliati, che includono azioni per risolvere l'incidente, convalidare il successo e annullare una modifica, se necessario. L’agente AWS DevOps fornisce anche istruzioni pronte per l'agente che possono essere implementate da un altro agente di frontiera, ad esempio miglioramenti del codice che possono essere implementati dall'agente autonomo Kiro.
Attraverso un'analisi sistematica degli allarmi derivanti da modifiche del sistema, anomalie di input, limiti di risorse, guasti dei componenti e problemi di dipendenza nell'intero stack, l’agente AWS DevOps guida i team DevOps con fasi di mitigazione mirate, riducendo il tempo medio di risoluzione (MTTR) da ore a minuti. Ad esempio:
- Modifiche al sistema: se un incidente è causato dalla limitazione di Amazon DynamoDB a causa di una recente modifica del codice che comporta un'elevata latenza dovuta a un uso inefficiente, l’agente AWS DevOps potrebbe consigliare di annullare la modifica come misura di mitigazione immediata.
- Modifiche al sistema: se un incidente è causato da errori di sottoscrizione di Amazon SNS dovuti alla mancata corrispondenza delle policy di filtro a seguito dell’implementazione di un codice, l’agente AWS DevOps può consigliare di annullare la modifica al codice che ha alterato la struttura del messaggio come mitigazione immediata per ripristinare il flusso di messaggi.
- Anomalie di input: se un incidente è causato dalla limitazione delle notifiche da parte di AWS Lambda a causa di un traffico elevato che supera i limiti, l’agente AWS DevOps può consigliare di aumentare i limiti di concorrenza come misura di mitigazione immediata.
- Anomalie di input: se un incidente è causato da errori di pubblicazione dei messaggi di Amazon SNS dovuti a problemi di dimensione dei messaggi, l’agente AWS DevOps potrebbe consigliare di aggiungere la convalida alla pubblicazione dei messaggi di Amazon SNS come misura di mitigazione immediata.
- Limiti delle risorse: se un incidente è causato dalla limitazione delle API dovuta al superamento dei limiti di velocità, l’agente AWS DevOps può consigliare di aumentare i limiti di rate/burst come misura di mitigazione immediata.
- Limiti delle risorse: se un incidente è causato dalla limitazione di Amazon DynamoDB dovuta a una capacità di scrittura superata, l’agente AWS DevOps potrebbe consigliare di aumentare la capacità di scrittura come misura di mitigazione immediata.
- Guasti dei componenti: se un incidente è causato dalla latenza di avvio a freddo dovuta al degrado delle prestazioni, l’agente AWS DevOps può consigliare di aumentare la concorrenza predisposta come misura di mitigazione immediata.
Prevenzione proattiva degli incidenti futuri
Apri tuttoL’agente AWS DevOps analizza i modelli degli incidenti storici per fornire raccomandazioni attuabili che rafforzano quattro aree chiave: osservabilità, ottimizzazione dell'infrastruttura, miglioramento della pipeline di implementazione e resilienza delle applicazioni. Ad esempio, nell'area dell'ottimizzazione dell'infrastruttura, l’agente AWS DevOps consiglia Kubernetes Horizontal Pod Autoscaler (HPA) per i cluster EKS per gestire picchi di traffico imprevisti.
L’agente AWS DevOps identifica le lacune nella copertura dell'osservabilità e le opportunità per ottimizzare gli allarmi, riducendo il tempo medio di rilevamento (MTTD) in modo da poter identificare i problemi prima che diventino un problema più grande. Ad esempio, dopo aver rilevato che il rilevamento degli incidenti per guasti recenti ha richiesto troppo tempo, l’agente AWS DevOps potrebbe consigliare di implementare il monitoraggio e il rilevamento delle anomalie più vicino all’origine dell'errore per ridurre i tempi di rilevamento e prevenire interruzioni prolungate.
Utilizzando un ciclo di apprendimento, l’agente AWS DevOps continua a perfezionare i suoi consigli, ad allinearsi alle priorità operative e a fornire consigli sempre più pertinenti e personalizzati in base alle esigenze organizzative in base al feedback del team sui consigli.
L’agente AWS DevOps analizza i modelli degli incidenti storici per fornire raccomandazioni mirate che prevengono interruzioni future e rafforzano la resilienza del sistema. Valutando gli incidenti reali, offre miglioramenti specifici e attuabili che riducono sia la frequenza che l'impatto di problemi simili in quattro aree chiave: osservabilità, ottimizzazione dell'infrastruttura, miglioramento della pipeline di implementazione e resilienza delle applicazioni.
- Miglioramento dell'osservabilità: l’agente AWS DevOps può consigliare di regolare le soglie di allarme da 15 guasti nell'arco di 20 minuti a 3 guasti entro 5 minuti per i sistemi di autenticazione critici per ridurre i tempi di rilevamento, prevenendo interruzioni prolungate dell'integrazione.
- Miglioramento dell'osservabilità: l’agente AWS DevOps può consigliare l'implementazione di filtri metrici CloudWatch mirati per tracciare modelli anomali di “accesso negato” per le modifiche ai ruoli IAM, consentendo un rilevamento più rapido rispetto a un allarme precedente.
- Miglioramento dell'infrastruttura: dopo aver analizzato che lo schema delle tabelle di Amazon DynamoDB non corrisponde al modello di accesso principale del servizio, imponendo scansioni complete delle tabelle inefficienti, l’agente AWS DevOps consiglia di creare un indice secondario globale (GSI) con l'attributo richiesto frequentemente come chiave di partizione. Ciò trasformerebbe le operazioni da scansioni a query, riducendo la latenza da 2.500-3.500 ms a meno di 100 ms e prevenendo la limitazione.
- Miglioramento dell'infrastruttura: l'analisi dell’agente AWS DevOps mostra che l'applicazione dispone di risorse adeguate ma è vincolata da un collo di bottiglia a singolo pod in cui tutte le richieste vengono accodate a un'istanza durante i picchi di traffico. L’agente AWS DevOps può consigliare di aggiungere Horizontal Pod Autoscaler al cluster Kubernetes, che scalerà automaticamente il servizio orizzontalmente in base alla domanda, distribuendo efficacemente il carico su più pod.
- Pipeline di implementazione: dopo aver analizzato le implementazioni Amazon ECS non riuscite, l’agente AWS DevOps potrebbe consigliare di abilitare i rollback automatici e monitorare gli stati di implementazione con Amazon EventBridge. Queste modifiche rileveranno e risolveranno rapidamente gli errori di controllo dell’integrità delle attività, prevenendo l'interruzione delle transazioni con i clienti.
- Pipeline di implementazione: dopo aver analizzato gli errori di implementazione, l’agente AWS DevOps può consigliare la convalida obbligatoria pre-implementazione di Amazon Managed Service per la connettività Prometheus per le definizioni delle attività di Amazon ECS. Questa raccomandazione ridurrebbe le implementazioni non riuscite rilevando i problemi di connettività durante il processo di implementazione.
Ottieni di più dai tuoi strumenti DevOps
Apri tuttoMan mano che l’agente AWS DevOps impara a conoscere il tuo ambiente, identifica le risorse delle tue applicazioni come container, componenti di rete, gruppi di log, allarmi e implementazioni CI/CD e mappa il modo in cui si connettono per creare una mappa delle risorse dell'applicazione. Combina questa topologia delle risorse con i dati di telemetria, codice e implementazione per individuare con precisione le cause principali dei problemi.
L’agente AWS DevOps offre integrazioni integrate con molti strumenti di osservabilità (Amazon CloudWatch, Dynatrace, Datadog, New Relic e Splunk), repository di codice e pipeline CI/CD (Azioni e repository GitHub, flussi di lavoro e repository GitLab).
Puoi estendere l’agente AWS DevOps oltre le sue integrazioni integrate connettendoti al tuo server MCP, abilitando le integrazioni con strumenti aggiuntivi come strumenti personalizzati della tua organizzazione, piattaforme specializzate o sistemi di ticketing proprietari. Ad esempio, connettendoti al tuo server MCP, puoi integrarti con segnali di osservabilità open source come allarmi Grafana e parametri e runbook Prometheus in Confluence.
Fasi successive
Hai trovato quello che cercavi?
Facci sapere la tua opinione in modo da migliorare la qualità dei contenuti delle nostre pagine