Osservabilità

Ottieni informazioni dettagliate e migliora le prestazioni delle tue applicazioni, degli utenti e dell'infrastruttura

Cos'è l'osservabilità?

"Il mio sistema funziona o no?" "È veloce o lento per gli utenti finali?" "Quali KPI e SLA dovrei implementare e come faccio a sapere se vengono rispettati?" Quando operi su cloud a velocità elevata e su vasta scala, non puoi permetterti di andare alla cieca: devi essere in grado di rispondere a diverse domande operative e aziendali come queste. Devi anche essere in grado di individuare i problemi non appena si manifestano (idealmente prima che ostacolino l'esperienza del cliente), reagendo rapidamente e risolvendoli il prima possibile. Per ottenere queste informazioni dettagliate, sono necessari sistemi osservabili.

Monitoraggio e osservabilità

L'"osservabilità" indica in che misura sei in grado di capire cosa sta succedendo in un sistema, spesso dotandolo di strumentazione per raccogliere parametri, registri o tracce. Sul cloud, può essere difficile raggiungere l'osservabilità a causa dell'assoluta complessità dei problemi. Per raggiungere l'eccellenza operativa e soddisfare gli obiettivi aziendali, sia nei data center sia nel cloud è necessario capire come si comportano i sistemi. Le soluzioni per l'osservabilità consentono di raccogliere e analizzare i dati dalle applicazioni e dall'infrastruttura, in modo da poter comprendere i loro stati interni e ricevere un avviso per risolvere i problemi con la disponibilità e le prestazioni delle applicazioni, al fine di migliorare l'esperienza utente finale. 

Qual è la differenza tra osservabilità e monitoraggio?

Anche se a volte i termini "monitoraggio" e "osservabilità" sono definiti diversamente, il monitoraggio è un'attività che rende un sistema osservabile, insieme ad altre attività come il tracciamento e la registrazione. Spesso il monitoraggio, il tracciamento e la registrazione sono descritti come i "tre pilastri dell'osservabilità". Tuttavia, ci sono anche altri strumenti che consentono di raggiungere l'osservabilità, come i profiler e IA/Ops, trattati di seguito.

Che cosa mi aiuta a fare l'osservabilità?

Grazie all'osservabilità, potrai rilevare e analizzare i problemi.

Rilevamento

Il rilevamento tempestivo di un problema (idealmente prima che colpisca gli utenti finali) è la prima fase dell'osservabilità. Il rilevamento dovrebbe essere proattivo e sfaccettato, includendo l'invio di avvisi, quando le soglie di performance vengono violate, test sintetici e rilevamento delle anomalie. Un parametro comune delle prestazioni è il tempo medio di rilevamento (MTTD, mean time to detect). È possibile migliorare il MTTD con una serie di attività e strumenti:


Monitoraggio

Gli strumenti di monitoraggio registrano le statistiche delle prestazioni nel tempo, in modo da poter identificare i modelli di utilizzo. Gli agenti di monitoraggio registrano parametri selezionati a intervalli prestabiliti e archiviano i dati risultanti in un formato di serie temporale.

Monitoraggio delle prestazioni delle applicazioni

Il monitoraggio delle prestazioni delle applicazioni (APM, Application Performance Monitoring) consente di monitorare l'esperienza cliente end-to-end, dai browser e dai dispositivi mobili attraverso i vari livelli dello stack delle applicazioni. L'APM inizia con il monitoraggio front-end, misurando e monitorando l'esperienza dei clienti dal browser o dal dispositivo mobile. Al centro di APM, il rilevamento, il tracciamento e la diagnostica dell'applicazione consentono di identificare quale parte di un'applicazione sta causando problemi di prestazioni e di individuarne rapidamente il motivo.

Avvisi

Quando qualcosa va storto, desideri ricevere avvisi tempestivi. Tuttavia, un rilevamento troppo sensibile può essere stancante, per cui anche la gestione degli avvisi è fondamentale.

IA/Ops e rilevamento di anomalie

Una serie di strumenti di nuova generazione si basa sulla potenza dell'intelligenza artificiale e il machine learning a supporto dell'osservabilità, utilizzando modelli di machine learning per identificare il comportamento anomalo delle applicazioni e far emergere i problemi critici prima che causino potenziali interruzioni o disservizi.

Monitoraggio dell'infrastruttura

Il monitoraggio dell'infrastruttura consente di correlare i parametri e i log di uno stack dell'infrastruttura per comprendere e risolvere le cause primarie dei problemi relativi alle prestazioni.

Monitoraggio dell'esperienza digitale

Il monitoraggio dell'esperienza digitale (DEM, Digital Experience Monitoring ) fornisce informazioni dettagliate sull'esperienza dell'utente finale che interagisce con il sistema raccogliendo dati sulle attività dal suo browser, dall'applicazione per dispositivi mobili o dall'interazione vocale. Le transazioni sintetiche comportano la creazione di script per emulare il comportamento dell'utente finale quando interagisce con un sistema, in modo che possa essere monitorato e testato anche quando non è sotto carico reale. Il monitoraggio dell'utente reale (RUM, Real user monitoring) combina il monitoraggio della disponibilità di un sito Web o API, per ricevere richieste da diversi punti di presenza nel mondo, con i test A/B automatizzati.

Profilatura

Gli strumenti di profilatura prendono un campione di misure a intervalli regolari. Ad esempio, le unità centrali di elaborazione (CPU) sono comunemente profilate prendendo campioni ad intervalli di tempo dei percorsi del codice sulla CPU.

Telemetria

La telemetria è la strumentazione dei sistemi (di solito tramite agenti di monitoraggio) che consente di raccogliere dati sul comportamento di questi sistemi. Una volta che la telemetria è attiva, il sistema inizia a produrre dati che possono essere monitorati. Tuttavia, i team all'interno di un'azienda possono utilizzare strumenti diversi e ciò ha comportato una proliferazione degli agenti di monitoraggio che devono essere inclusi nel codice base di un'azienda; se si decide di utilizzare strumenti diversi o aggiuntivi, è necessario fornire una nuova strumentazione. Grazie al progetto OpenTelemetry, è possibile dotare le applicazioni di strumentazione solo una sola e inviare parametri e tracce correlate a più soluzioni di monitoraggio.

Analisi

L'analisi è la fase più dispendiosa in termini di tempo di un evento operativo. Quando le cose vanno male, può essere difficile capire quali problemi è più importante risolvere. Usare più fonti di osservabilità contemporaneamente può aiutarti a indagare rapidamente per comprendere la causa principale, ma per farlo in modo efficace è necessario correlare i dati tra parametri, registri e tracce. 


Tracciamento

Tracciamento di eventi del sistema di registro come una richiesta HTTP da parte di un client. Nel tracciamento distribuito, i dettagli acquisiti sull'evento includono il percorso della richiesta attraverso più servizi/applicazioni, insieme ai parametri sulla richiesta come la latenza ad ogni fase del percorso.

Strumenti di visualizzazione

L'osservabilità, soprattutto a livello del cloud, può generare grandi volumi di dati difficili da analizzare per un essere umano. Gli strumenti di visualizzazione aiutano a dare rapidamente un senso ai dati, correlando l'osservabilità dei dati con grafici visivi intuitivi.

Quando dovrei usare l'osservabilità?

Impara a capire l'integrità e le prestazioni delle applicazioni per migliorare l'esperienza cliente

L'obiettivo principale dell'osservabilità è sapere cosa succede (in qualunque momento e in qualunque posto) nel tuo sistema, così da garantire la miglior esperienza possibile agli utenti finali. Devi poter individuare i problemi rapidamente, analizzarli in modo efficiente e risolverli il prima possibile, per ridurre il tempo di inattività e altri ritardi per i tuoi clienti; un parametro comune è il tempo medio di risoluzione (MTTR).

Maggiore produttività per gli sviluppatori

Il debug tradizionale (attraverso l'analisi dei registri o la trasformazione di breakpoint in codici) è un compito tedioso, ripetitivo, che richiede tempo e che non è adatto alle applicazioni di produzione o a quelle realizzate utilizzando un microservizio o un'architettura serverless. Per analizzare le prestazioni delle applicazioni distribuite, gli sviluppatori hanno bisogno di parametri e tracce correlati tra loro per identificare l'impatto sull'utente da tutte le fonti e per individuare percorsi di codifica non funzionanti o costosi il più rapidamente possibile. È necessario che facciano tutto ciò senza dotare i codici di nuova strumentazione quando vogliono aggiungere nuovi strumenti di osservabilità al loro kit. La giusta suite di strumenti di osservabilità può aiutare gli sviluppatori a codificare e testare meglio e più velocemente.

Miglioramento dell'efficacia e dell'efficienza operativa

L'osservabilità può aiutarti a migliorare le prestazioni nel parco istanze del cloud, consentendoti di ridurre i costi. Ad esempio, su migliaia o centinaia di migliaia di istanze, una piccola percentuale di miglioramento delle prestazioni nella quantità di CPU utilizzata da un'applicazione può comportare un risparmio di milioni di dollari. Allo stesso modo, utilizzando l'osservabilità per capire e prevedere i requisiti di capacità futuri, puoi usufruire del risparmio disponibile sui costi di riserva e istanze spot.

Quali soluzioni di osservabilità offre AWS?

Servizi AWS

Le soluzioni di osservabilità native di AWS sono state sviluppate sin dall'inizio per osservare altri servizi AWS, operare a livello di cloud e fornire sicurezza a livello aziendale.

Importa automaticamente i dati operativi dalle tue applicazioni AWS e applica modelli di machine learning forniti grazie all'eccellenza operativa pluriennale di Amazon.com e AWS, per identificare il comportamento anomalo delle applicazioni e far emergere i problemi critici prima che causino interruzioni o disservizi.

Esegui il tracciamento distribuito in più applicazioni e sistemi per riuscire a trovare la latenza di un sistema e indirizzarla al miglioramento.

Importa automaticamente i dati operativi dalle tue applicazioni AWS e applica modelli di machine learning forniti grazie all'eccellenza operativa pluriennale di Amazon.com e AWS, per identificare il comportamento anomalo delle applicazioni e far emergere i problemi critici prima che causino interruzioni o disservizi.

Individua i percorsi di codice a elevato uso di CPU in un'applicazione, utilizzando i grafici a fiamma, e ottimizza il codice per migliorare le prestazioni e ridurre i costi dell'infrastruttura. 

Open source

Offriamo servizi basati su e completamente compatibili con il popolare software di osservabilità open source. Puoi continuare a utilizzare strumenti familiari in cui hai già investito, evitando al contempo l'onere indifferenziato del dimensionamento e della sicurezza.

Una distribuzione del progetto OpenTelemetry sicura, pronta per la produzione e supportata da AWS. Utilizzala per dotare di strumentazione le applicazioni solo una volta, inviare parametri e tracce correlate a soluzioni di monitoraggio multiple di AWS e partner.

Un servizio di monitoraggio gestito che si basa ed è compatibile con Prometheus, la soluzione open source di monitoraggio e avviso più utilizzata, ottimizzata per gli ambienti container. Utilizza il linguaggio di query Prometheus (PromQL) per monitorare le prestazioni dei carichi di lavoro nei container.

 Un servizio completamente gestito e basato su Grafana, la piattaforma open source di analisi dei dati più utilizzata. Esegui query, visualizza, segnala e comprendi i parametri, indipendentemente dalla posizione di archiviazione. Crea, esplora e condividi i pannelli di controllo dell'osservabilità. 

Amazon OpenSearch Service semplifica l'esecuzione di analisi di dati dei registri interattive, monitoraggio delle applicazioni in tempo reale, ricerca Web e altro ancora. OpenSearch è una suite di analisi dei dati e ricerca distribuita open source derivata da Elasticsearch. Amazon OpenSearch Service offre le versioni più recenti di OpenSearch, supporto per 19 versioni di Elasticsearch (versioni da 1.5 a 7.10) e funzionalità di visualizzazione basate su Pannelli di controllo OpenSearch e Kibana (versioni da 1.5 a 7.10).

Testimonianze dei clienti

Mapbox

Mapbox

Mapbox è una piattaforma di mappatura open-source per mappe personalizzate al servizio di oltre 300 milioni di persone al mese. Mapbox utilizza Amazon CloudWatch per l’ingestione di diverse origini di dati (tra cui parametri AWS, parametri personalizzati e log) e per il monitoraggio e la visualizzazione dei carichi di lavoro fondamentali e l’ottimizzazione delle risorse.

“Stavamo cercando di accorpare il monitoraggio, i log, i parametri e gli avvisi in un unico strumento. CloudWatch ci ha aiutati ad alleggerire il carico operativo per impostare, configurare e imparare a conoscere sistemi di terze parti. I nostri team usano CloudWatch in maniera approfondita per monitorare il tasso di errore e i codici di stato per diversi carichi di lavoro di alto profilo. Utilizziamo CloudWatch anche per automatizzare le azioni di Auto Scaling, ottimizzando il costo dei tipi di istanze Amazon EC2 che alimentato i cluster Amazon ECS. CloudWatch Events ci permette di fornire informazioni relative all’uso e ai prezzi ai team, così che possa monitorare la sicurezza dell’account, attivare azioni di AWS Lambda per casi d’uso sulla conformità e la sicurezza e programmare le risorse tramite il cloud. CloudWatch rende possibile un’automazione di livello superiore e potenzia le capacità di ogni individuo.”

Emily McAfee, Platform Engineering Manager - Mapbox

Pushpay

Pushpay

L’obiettivo di Pushpay è riunire le persone rafforzando il senso di comunità, legame e appartenenza. Sviluppiamo soluzioni per applicazioni mobili di prim’ordine per effettuare donazioni per aiutare le organizzazioni ad ampliare le proprie comunità.

“Attualmente, la nostra soluzione per l’analisi dei log comporta spese in termini di gestione e di configurazione, ha diversi requisiti di mantenimento e ha un costo proibitivo. Ciò rende impossibile, per il nostro team di ingegneri, accedere ed effettuare query sui log sia in contesto di sviluppo che di test. Con CloudWatch Logs Insights, adesso siamo in grado di effettuare query sui log nell’ambito di CloudWatch Logs riducendo la complessità operativa. La possibilità di pagare in base alle query effettuate ci permette di essere più flessibili e di poter scalare seguendo il nostro ritmo, e i nostri ingegneri possono iniziare a utilizzare i log ed effettuare query senza dover aspettare che la soluzione attuale completi la configurazione, l’integrazione e l’ingestione. Inoltre, sfruttiamo la possibilità di vedere i parametri e i log, cosa che ci permette di individuare e risolvere i problemi più velocemente. Logs Insights è una soluzione efficace e poco costosa che permette ai nostri ingegneri di monitorare le applicazioni ed effettuare log da un’unica console AWS.”

Peter Goodman, Director Site Reliability Engineering - Pushpay

SendGrid

SendGrid

SendGrid è un fornitore di e-mail cloud e invia oltre 40 miliardi di e-mail ogni mese per più di 69.000 clienti paganti. SendGrid ha adottato Amazon CloudWatch durante le prime fasi della migrazione ad AWS per ottenere maggiore visibilità di sistema, informazioni operative e risorse per l’ottimizzazione.

“CloudWatch ci permette di raccogliere parametri dai servizi AWS, come Amazon EC2, Amazon Kinesis, Amazon DynamoDB e Amazon API Gateway, nonché log dalle funzioni di AWS Lambda. Siamo felici di poter effettuare l’integrazione, senza aver bisogno di uno stack gestito dfal cliente o di un fornitore SaaS terzo. Ciò ci ha consentito di iniziare la nostra pianificazione in termini di alert, auto scaling e capacità molto rapidamente. Grazie alle possibilità di occuparci dei casi d’uso principali in modo rapido e semplice, CloudWatch è diventata la nostra soluzione preferita.”

Joshua Barratt, Architect II - SendGrid

Scopri l’osservabilità in modo pratico

Partecipa al workshop sull'osservabilità unificata per un'esperienza immersiva e interattiva, e prova a utilizzare Amazon CloudWatch e AWS X-Ray con esercizi pratici. Nel corso del workshop svilupperai un'applicazione complessa basata sui microservizi e imparerai a configurare il monitoraggio e l'osservabilità in un ambiente moderno. Al termine, avrai una comprensione approfondita della registrazione di log, del monitoraggio di parametri, container e serverless, nonché delle tecniche di tracciamento.

Inizia il workshop 
Novità
Data (dalla più alla meno recente)
  • Data (dalla più alla meno recente)
1
Nessun risultato trovato.
Blog
Data
  • Data
1
Non è stato trovato alcun blog corrispondente a questo criterio.

Scopri altri casi d'uso di gestione e governance in AWS

Page-Illo_AWS-Management-Governance_Open and Custom Resource Provisioning
Provisioning e orchestrazione »

Realizza, effettua il provisioning e condividi risorse

Page-Illo_AWS-Management-Governance_Automated Configuration Compliance and Auditing
Configurazione, conformità e auditing »

Verifica e correggi le configurazioni delle risorse

Page-Illo_AWS-Management-Governance_Centralized and Automated Operations Management
Gestione centralizzata delle operazioni »

Gestisci le tue operazioni nel cloud

Page-Illo_AWS-Management-Governance_Governance at Scale
Governance e controllo aziendali »

Crea un ambiente AWS multi-account sicuro gestito a livello centrale