Observabilidade

Obtenha insights e melhore a performance de seus aplicativos, usuários e infraestrutura

O que é observabilidade?

“Meu sistema está ativo ou inativo?” “Ele é rápido ou lento, conforme experimentado por meus usuários finais?” “Quais KPIs e SLAs devemos estabelecer e como sabemos se eles estão sendo cumpridos?” Quando você está operando em velocidade e escala de nuvem, você não pode se dar ao luxo de voar às cegas: você precisa ser capaz de responder a uma ampla gama de questões operacionais e de negócios como essas. Você precisa ser capaz de identificar os problemas à medida que surgem (de preferência, antes que interrompam a experiência do cliente), respondê-los rapidamente e resolvê-los o mais brevemente possível. Para obter esse insight, você precisa de sistemas observáveis.

Monitoramento e observabilidade

“Observabilidade” descreve o quão bem você pode entender o que está acontecendo em um sistema, frequentemente instrumentando-o para coletar métricas, logs ou rastreamentos. Na nuvem, a observabilidade pode ser difícil de alcançar devido à grande complexidade do sistema. Seja em data centers ou na nuvem, para atingir a excelência operacional e atender aos objetivos de negócios, você precisa entender o desempenho de seus sistemas. As soluções de observabilidade permitem que você colete e analise dados de aplicativos e infraestrutura para que possa entender seus estados internos e ser alertado, solucionar e resolver problemas com disponibilidade e performance de aplicativos para melhorar a experiência do usuário final. 

Qual é a diferença entre observabilidade e monitoramento?

Embora o termo “monitoramento” às vezes seja definido como diferente da observabilidade, o monitoramento é uma atividade que torna um sistema observável, juntamente com outras atividades, como rastreamento e registro. Frequentemente, você verá monitoramento, rastreamento e registro descritos como “três pilares de observabilidade”. No entanto, também existem outras ferramentas que o ajudam a atingir a observabilidade, como criadores de perfil e IA/Operações, discutidos abaixo.

O que a observabilidade me ajuda a fazer?

A observabilidade permite detectar e investigar problemas.

Detecção

A detecção oportuna de um problema (de preferência, antes que afete os usuários finais) é a primeira etapa da observabilidade. A detecção deve ser proativa e multifacetada, incluindo alarmes quando os limites de performance são violados, testes sintéticos e detecção de anomalias. Uma métrica de performance comum é o tempo médio de detecção (MTTD). Você pode melhorar o MTTD com uma série de atividades e ferramentas:


Monitoramento

As ferramentas de monitoramento registram estatísticas de performance ao longo do tempo para que os padrões de uso possam ser identificados. Os agentes de monitoramento registram métricas selecionadas em intervalos definidos e armazenam os dados resultantes em um formato de série temporal.

Monitoramento de performance de aplicativos

O Monitoramento de Performance de Aplicativos (APM) permite monitorar a experiência do cliente de ponta a ponta, desde navegadores e dispositivos móveis até as várias camadas da pilha de aplicativos. O APM começa com o monitoramento de front-end – medindo e monitorando a experiência dos clientes a partir do navegador ou dispositivo móvel. No centro do APM, descoberta, rastreamento e diagnóstico de aplicativos, está a capacidade de identificar qual parte de um aplicativo está causando problemas de performance e localizar rapidamente o motivo.

Alertas

Quando algo dá errado, você precisa receber alertas oportunos. No entanto, a detecção muito sensível pode levar à fadiga do alarme, o que torna o gerenciamento de alertas fundamental.

IA/Operações e detecção de anomalias

Uma nova geração de ferramentas agora está trazendo o poder da inteligência artificial e machine learning para a observabilidade, usando modelos de machine learning para identificar comportamentos anômalos de aplicativos e problemas graves de superfície antes que causem possíveis quedas ou interrupções de serviço.

Monitoramento de infraestrutura

O monitoramento de infraestrutura permite correlacionar métricas e logs de uma pilha de infraestrutura para compreender e resolver as causas raiz dos problemas de performance.

Monitoramento de experiência digital

O monitoramento de experiência digital (DEM) fornece insights sobre a experiência do usuário final no envolvimento com o sistema, coletando atividades de seu navegador, aplicativo móvel ou interação de voz. As transações sintéticas envolvem a criação de scripts para emular o comportamento do usuário final ao interagir com um sistema, de modo que possa ser monitorado e testado mesmo quando não está sob carga real. O monitoramento real do usuário (RUM) combina o monitoramento da disponibilidade de um site ou API para receber solicitações de diferentes pontos de presença em todo o mundo, com testes A/B automatizados.

Criação de perfil

As ferramentas de criação de perfil obtêm uma amostra das medições em intervalos regulares. Por exemplo, as unidades de processamento central (CPUs) são comumente traçadas por meio de amostras de intervalos de tempo dos caminhos de código na CPU.

Telemetria

A telemetria é a instrumentação de sistemas (geralmente por meio de agentes de monitoramento) para que possam coletar dados sobre o desempenho desses sistemas. Uma vez que a telemetria está instalada, um sistema começa a produzir dados que podem ser monitorados. No entanto, diferentes equipes dentro de uma empresa podem usar ferramentas distintas, o que levou a uma proliferação de agentes de monitoramento que devem ser incluídos na base de código de uma empresa, ou é necessário instrumentalizar novamente caso se decida usar ferramentas diferentes ou adicionais. O projeto OpenTelemetry torna possível instrumentalizar aplicativos apenas uma vez e enviar métricas e traços correlacionados para várias soluções de monitoramento.

Investigação

A investigação é a fase mais demorada de um evento operacional. Quando as coisas estão dando errado, pode ser difícil entender o que é mais importante corrigir. Usar várias fontes de observabilidade juntas pode ajudá-lo a investigar para entender rapidamente a causa raiz, mas, para fazer isso de forma eficaz, é necessário correlacionar dados entre métricas, registros e rastreamentos. 


Rastreamento

O rastreamento registra eventos do sistema, como uma solicitação HTTP de um cliente. No rastreamento distribuído, os detalhes capturados sobre o evento incluem o caminho da solicitação em vários serviços/aplicativos, junto com métricas sobre a solicitação, como latência em cada etapa do caminho.

Ferramentas de visualização

A observabilidade, especialmente em escala de nuvem, pode gerar grandes volumes de dados, que se tornam difíceis de serem analisados por humanos. As ferramentas de visualização ajudam a dar sentido aos dados, correlacionando os dados de observabilidade em telas gráficas intuitivas.

Quando eu uso a observabilidade?

Entenda a integridade e a performance do aplicativo para melhorar a experiência do cliente

O principal objetivo da observabilidade é saber o que está acontecendo – em qualquer lugar e em todo lugar – em seu sistema, para que você possa garantir a melhor experiência possível para seus usuários finais. Você deseja detectar problemas rapidamente, investigá-los com eficiência e corrigi-los o mais rápido possível para minimizar o tempo de inatividade e outras interrupções para seus clientes; uma métrica comum é o tempo médio de recuperação (MTTR).

Melhore a produtividade do desenvolvedor

A depuração tradicional – por meio da análise de logs ou da instrumentação de pontos de interrupção em código – é entediante, repetitiva e demorada, e não é escalável para aplicativos de produção ou aqueles construídos usando microsserviços ou arquitetura sem servidor. Para analisar a performance em aplicativos distribuídos, os desenvolvedores precisam de métricas e rastreamentos correlacionados para identificar o impacto para usuário gerado por qualquer fonte e para encontrar caminhos de código corrompidos ou caros o mais rápido possível. Eles precisam fazer tudo isso sem ter que instrumentalizar novamente seu código sempre que quiserem adicionar novas ferramentas de observabilidade ao seu kit. O pacote certo de ferramentas de observabilidade pode ajudar os desenvolvedores a codificar e testar melhor e mais rápido.

Melhoria da eficácia e eficiência operacional

A observabilidade pode ajudá-lo a encontrar melhorias de performance em sua frota de nuvem, o que, por sua vez, permite reduzir custos. Por exemplo, em milhares ou centenas de milhares de instâncias, uma pequena porcentagem de melhoria de performance na quantidade de CPU que um aplicativo usa pode representar uma economia de milhões de dólares. Da mesma forma, ao usar a observabilidade para compreender e prever suas necessidades futuras de capacidade, você pode aproveitar as vantagens da economia de custos disponível na reserva e definição de preço do spot.

Quais soluções de observabilidade a AWS oferece?

Produtos da AWS

Nossas soluções de observabilidade nativas da AWS foram desenvolvidas desde o início para observar outros produtos da AWS, para operar em escala de nuvem e fornecer segurança de nível empresarial.

Insere automaticamente dados operacionais de seus aplicativos da AWS e aplica modelos de machine learning informados por anos de excelência operacional da Amazon.com e da AWS, visando identificar comportamentos anômalos de aplicativos e problemas críticos de superfície antes que causem quedas ou interrupções de serviço.

Execute o rastreamento distribuído em vários aplicativos e sistemas para ajudar a encontrar a latência em um sistema e direcioná-lo para melhorias.

Insere automaticamente dados operacionais de seus aplicativos da AWS e aplica modelos de machine learning informados por anos de excelência operacional da Amazon.com e da AWS, visando identificar comportamentos anômalos de aplicativos e problemas críticos de superfície antes que causem quedas ou interrupções de serviço.

Identifique os caminhos de código que mais consomem CPU em um aplicativo usando gráficos em degradê e otimize seu código para melhorar a performance e reduzir os custos de infraestrutura. 

Código aberto

Oferecemos serviços baseados e totalmente compatíveis com software de observabilidade de código aberto popular. Você pode continuar usando ferramentas conhecidas nas quais já investiu, ao mesmo tempo que evita as trabalhosas tarefas rotineiras de escalabilidade e segurança.

Uma distribuição segura, pronta para produção e com suporte da AWS do projeto OpenTelemetry. Use-o para instrumentalizar seus aplicativos apenas uma vez para enviar métricas e rastreamentos correlacionados a várias soluções de monitoramento de parceiros e AWS.

Um serviço de monitoramento gerenciado baseado e compatível com o Prometheus, a popular solução de monitoramento e alerta de código aberto otimizada para ambientes de contêiner. Use o Prometheus Query Language (PromQL) para monitorar a performance de cargas de trabalho em contêineres.

 Um serviço totalmente gerenciado baseado na Grafana, a popular plataforma de análise de código aberto. Consulte, visualize, alerte e entenda as métricas, independentemente de onde estiverem armazenadas. Crie, explore e compartilhe painéis de observabilidade. 

O Amazon OpenSearch Service facilita a execução de análises de log interativas, o monitoramento de aplicações em tempo real, as pesquisas em sites e muito mais. O OpenSearch é um conjunto de pesquisa e análise de código aberto distribuído derivado do Elasticsearch. O Amazon OpenSearch Service oferece as versões mais recentes do OpenSearch, suporte para 19 versões do Elasticsearch (versões de 1.5 a 7.10) e recursos de visualização fornecidos pelo OpenSearch Dashboards e Kibana (versões de 1.5 a 7.10).

Histórias de clientes

Mapbox

Mapbox

O Mapbox é uma plataforma de mapeamento de código aberto para mapas personalizados que chega a mais de 300 milhões de pessoas a cada mês. O Mapbox usa o Amazon CloudWatch para a ingestão de várias fontes de dados, incluindo métricas nativas da AWS, métricas personalizadas e logs, bem como monitoramento e visualização de cargas de trabalho importantes e otimização de recursos.

"Queríamos consolidar todo o nosso monitoramento, registro, métricas e alertas em uma única ferramenta. O CloudWatch nos ajudou a aliviar a carga operacional de instalar, configurar e aprender sistemas de terceiros. Nossas equipes usam o CloudWatch extensivamente para monitorar taxas de erro e códigos de status para várias cargas de trabalho de alto desempenho. Também usamos o CloudWatch para automatizar ações de Auto Scaling, o que nos permite otimizar o custo dos tipos de instâncias do Amazon EC2 que alimentam nossos clusters Amazon ECS. Os eventos do CloudWatch nos permitem fornecer informações de utilização e preços às equipes para que possam auditar a segurança da conta, acionar ações do AWS Lambda para casos de uso de conformidade e segurança e programar nossos recursos usando a nuvem. O CloudWatch permite a automação de próximo nível e expande a capacidade de cada indivíduo.”

Emily McAfee, gerente de engenharia de plataforma, Mapbox

Pushpay

Pushpay

O objetivo do Pushpay é unir as pessoas, fortalecendo a comunidade, a conexão e a sensação de fazer parte de algo. Construímos soluções de publicação de aplicativos móveis e doações de categoria internacional para ajudar as organizações a expandir suas comunidades.

"Nossa solução de análise de logs atual requer sobrecarga de configuração e manutenção, tem diferentes requisitos de retenção e tem um custo proibitivo, tornando impossível para nossa equipe de engenharia ser capaz de acessar e consultar logs em ambientes de desenvolvimento e teste. Com o CloudWatch Logs Insights, agora podemos consultar os logs dentro do CloudWatch Logs, reduzindo a complexidade operacional. O pagamento por consulta nos dá flexibilidade para escalar em nosso próprio ritmo e nossos engenheiros podem começar a consumir e consultar logs sem esperar que a configuração, integração e o consumo ocorram com nossa solução atual. Também nos beneficiamos da visualização de métricas e logs, permitindo uma solução de problemas mais rápida. O Logs Insights é uma solução eficaz e econômica para nossos engenheiros monitorarem seus aplicativos e realizarem mergulhos em logs, tudo a partir de um único Console AWS.”

Peter Goodman, diretor de engenharia de confiabilidade de sites, Pushpay

SendGrid

SendGrid

O SendGrid é um provedor de email na nuvem que envia mais de 40 bilhões de emails por mês para mais de 69.000 clientes pagantes. O SendGrid adotou o Amazon CloudWatch no início de sua migração para AWS para obter visibilidade do sistema, insights operacionais e otimização de recursos.

"O CloudWatch nos permite coletar métricas de serviços da AWS, como Amazon EC2, Amazon Kinesis, Amazon DynamoDB e Amazon API Gateway, além de logs de funções do AWS Lambda. Gostamos de poder integrar nativamente, sem a necessidade de uma pilha autogerenciada ou fornecedor de SaaS de terceiros. Isso nos ajudou a iniciar alertas, Auto Scaling e planejamento de capacidade muito rapidamente. Ser capaz de lidar com nossos principais casos de uso de forma rápida e simples tornou o CloudWatch a solução preferida."

Joshua Barratt, arquiteto II, SendGrid

Aprenda na prática sobre observabilidade

Confira o Workshop One Observability interativo e imersivo e pratique usando o Amazon CloudWatch e o AWS X-Ray. No workshop, você implantará uma aplicação de microsserviços complexos e configurará o monitoramento e a observabilidade em um ambiente moderno. Você sairá com um entendimento claro sobre registro em log, métricas, monitoramento de contêineres e sem servidor e técnicas de rastreamento.

Iniciar o workshop 
Novidades
Data (do mais recente ao mais antigo)
  • Data (do mais recente ao mais antigo)
1
Nenhum resultado encontrado.
Blog
Data
  • Data
1
Nenhum blog correspondente aos critérios foi encontrado.

Descubra outros casos de uso de gerenciamento e governança na AWS

Page-Illo_AWS-Management-Governance_Open and Custom Resource Provisioning
Provisionamento e orquestração »

Crie, provisione e compartilhe recursos

Page-Illo_AWS-Management-Governance_Automated Configuration Compliance and Auditing
Configuração, conformidade e auditoria »

Faça auditoria e corrija suas configurações de recursos

Page-Illo_AWS-Management-Governance_Centralized and Automated Operations Management
Gerenciamento centralizado de operações »

Gerencie as suas operações na nuvem

Page-Illo_AWS-Management-Governance_Governance at Scale
Governança e controle corporativos »

Instaure um ambiente da AWS com várias contas seguro e gerenciado de forma centralizada