Encontre e corrija problemas com eficiência, melhore a integridade do aplicativo e ofereça melhores experiências ao cliente
Três sinais fundamentais de observabilidade são métricas, logs (dados semiestruturados) e rastreamentos (fluxos de solicitações do início ao fim em todas as dependências). Esses sinais são o resultado de ambientes monitorados, como contêineres, microsserviços e aplicativos. O objetivo é fornecer uma experiência integrada para que os engenheiros de DevOps e de confiabilidade do site isolem eventos essenciais e usem todos os sinais de observabilidade para isolar problemas em aplicativos e microsserviços conteinerizados executados em qualquer lugar. O Amazon OpenSearch Service combina análise de dados de log e rastreamento em uma única solução.
Operações de observabilidade
O Amazon OpenSearch Service fornece novas funcionalidades para ajudar na solução de problemas de observabilidade. Use interfaces abertas para coletar, rotear e transformar dados de telemetria (inclusive OpenTelemetry, Fluentd, Fluentbit, Logstash, Data Prepper e outras). É possível pesquisar e analisar grandes volumes de dados semiestruturados com funcionalidades nativas. É possível visualizar, monitorar e alertar com detecção de anomalias os recursos de observabilidade do OpenSearch Dashboards e conduzir análise interativa e visualizações de dados com a Piped Processing Language (PPL), uma interface de consulta.
O Amazon OpenSearch Service lida com observabilidade, análise de rastreamento, análise de logs e problemas de monitoramento de desempenho de aplicativos (APM) em quatro dimensões:
Coletar: primeiro, é preciso coletar dados para análise. A coleta abrange a obtenção, o enriquecimento, a filtragem, a transformação e a normalização de dados de várias fontes.
Detectar: muitas vezes, os clientes detectam problemas assim que eles surgem. Frequentemente, existe um retardo entre o início de um problema e o momento em que você é avisado. Você quer reduzir esse retardo o máximo possível. A detecção deve ser proativa e multifacetada (ou seja, alarmes em telemetria). A detecção de anomalias é uma ferramenta essencial, bem como a capacidade de reunir alarmes relacionados para reduzir a fadiga do alarme. Outros componentes centrais da detecção são visualização e monitoramento, que o Amazon OpenSearch Service executa com um componente denominado OpenSearch Dashboards. É possível até mesmo analisar interativamente os dados com ferramentas, como PPL.
Investigar: a investigação ocorre onde as pessoas gastam mais tempo durante um evento operacional. A investigação geralmente envolve várias pessoas. Esse é o maior contribuinte para o Tempo médio para o incidente (MTTI) e o Tempo médio para a recuperação (MTTR). Atravessar o caos e entender no que se concentrar continua a ser uma tarefa difícil. Use logs, métricas e rastreamentos para ajudar na análise da causa-raiz, ao mesmo tempo fazendo a correlação entre métricas, logs e rastreamentos. E colabore nas investigações e documente sua análise com blocos de anotações do OpenSearch Dashboard.
Remediar: depois da identificação da causa de uma falha, é preciso remediá-la. Não há nada pior do que tentar consertar alguma coisa e piorar a situação. Não se esqueça de realizar uma análise pós-evento para determinar como a falha poderia ter sido evitada previamente. Documente as alterações propostas para evitar a recorrência do problema. Seu objetivo deve ser garantir que o mesmo problema nunca ocorra de novo. Porém, se ocorrer, você poderá identificar e remediar o problema automaticamente.
Como funciona: OpenSearch Service

Para análise de logs, existem várias tarefas para a criação de um pipe de ingestão. Os produtores são servidores back-end, serviços da AWS, servidores Web e outros, incluindo OpenTelemetry, AWS Distro para OpenTelemetry, Jaeger e Zipkin. Os coletores transferem os dados da fonte, possivelmente transformando-os localmente. Para serviços nativos da AWS, pode ser usado o agente do Amazon Kinesis ou o agente do Amazon CloudWatch. Para código aberto, os coletores comuns são Elastic Beats, Fluentd, Fluentbit ou o coletor do OpenTelemetry. Os agregadores armazenam informações dos coletores, que reduzem as conexões gerais para o Amazon OpenSearch Service. Em seguida, o Amazon OpenSearch Service indexa e analisa o resultado dos agregadores. Para visualizar e monitorar os resultados, use o OpenSearch Dashboards ou Kibana.
Monitoramento de desempenho de aplicativos
Às vezes, o APM é o primeiro nível de maturidade da observabilidade. Porém, o APM, isoladamente, não é suficiente. Seu aplicativo está tendo o desempenho esperado, mesmo se o painel de monitoramento de aplicativos estiver todo verde? Seus clientes estão tendo a experiência do usuário de que necessitam? Qual o uso do seu aplicativo? Que partes do seu aplicativo estão atingindo os limites de escala? Em que região geográfica você está observando o maior crescimento? Que tendências você pode visualizar e para quais deve fazer planos? Se você pudesse reunir as métricas, poderia ter a certeza de que, ao implantar um novo código ou uma mudança na infraestrutura, poderia observar o impacto dessas mudanças. A observabilidade aprimora o APM para responder a essas perguntas adicionais.
Clientes
Às vezes, o APM é o primeiro nível de maturidade da observabilidade. Porém, o APM, isoladamente, não é suficiente. Seu aplicativo está tendo o desempenho esperado, mesmo se o painel de monitoramento de aplicativos estiver todo verde? Seus clientes estão tendo a experiência do usuário de que necessitam? Qual o uso do seu aplicativo? Que partes do seu aplicativo estão atingindo os limites de escala? Em que região geográfica você está observando o maior crescimento? Que tendências você pode visualizar e para quais deve fazer planos? Se você pudesse reunir as métricas, poderia ter a certeza de que, ao implantar um novo código ou uma mudança na infraestrutura, poderia observar o impacto dessas mudanças. A observabilidade aprimora o APM para responder a essas perguntas adicionais.
Recursos de observabilidade
Blogs e a documentação
Postagem de novidades da AWS
Nova interface de observabilidade e análise de logs
O Amazon OpenSearch Service agora inclui uma interface de observabilidade e recursos de monitoramento de log, que oferecem a desenvolvedores e engenheiros de DevOps os insights necessários para diagnosticar problemas de performance mais rapidamente e reduzir o tempo de inatividade da aplicação.
Blog sobre big data da AWS
Getting started with trace analytics (Comece a usar análise de rastreamento)
Desenvolvedores e equipes operacionais de TI podem usar esse recurso para solucionar problemas de desempenho e disponibilidade nos seus aplicativos distribuídos.
Documentação da AWS
Trace Analytics for Amazon OpenSearch Service (Trace Analytics para Amazon OpenSearch Service)
Saiba como usar o Trace Analytics, que faz parte do plugin OpenSearch Observability, para analisar dados de rastreamento de aplicativos distribuídos.
Caso de uso de observabilidade
O que é observabilidade?
Saiba como usar o Trace Analytics, que faz parte do plugin OpenSearch Observability, para analisar dados de rastreamento de aplicativos distribuídos.
Workshops
A funcionalidade de observabilidade do Amazon OpenSearch Service permite que você faça mais do que simplesmente monitorar e entender não somente que eventos estão ocorrendo, mas por que estão ocorrendo. Neste workshop, você aprenderá como instrumentalizar, coletar e analisar métricas, rastreamentos e dados de log desde front-ends do usuário até back-ends do serviço e tudo que estiver entre eles. Junte isso tudo ao Amazon OpenSearch Service, AWS Distro para OpenTelemetry, FluentBit e Data Prepper.
Amostras de workshop do Github: Microservice observability with Amazon OpenSearch Service (Observabilidade de microsserviços com o Amazon OpenSearch Service)
Diagrama de arquitetura de referência da AWS
Vídeos
Podcasts

Obtenha acesso instantâneo ao nível gratuito da AWS.