Como faço a análise de causa-raiz para um failover multi-AZ e a reinicialização da minha instância do Amazon RDS?

Data da última atualização: 29/9/2021

Quero saber a causa-raiz do failover de multi-AZ e da reinicialização da minha instância do Amazon Relational Database Service (Amazon RDS).

Descrição breve

Quando você usa a implantação multi-AZ para sua instância de banco de dados, o Amazon RDS cria uma instância de banco de dados primária em uma zona de disponibilidade associada a uma sub-rede. Em seguida, o RDS cria uma instância de banco de dados em espera em uma zona de disponibilidade diferente associada a uma sub-rede diferente. Para obter mais informações, consulte Alta disponibilidade (multi-AZ) para o Amazon RDS.

O Amazon RDS detecta e recupera automaticamente os cenários de falha mais comuns das implantações multi-AZ para que você possa reiniciar as operações de banco de dados o mais rápido possível, sem intervenção administrativa. Se você habilitou a configuração multi-AZ para sua instância de banco de dados, o Amazon RDS alternará automaticamente para uma réplica em espera em outra zona de disponibilidade no caso de uma interrupção planejada ou não da instância de banco de dados. O Amazon RDS realiza automaticamente um failover em qualquer uma das seguintes ocorrências:

  • Perda de disponibilidade na zona de disponibilidade principal
  • Perda de conectividade de rede para principal
  • Falha de unidade computacional na principal
  • Falha de armazenamento na principal

Resolução

Verifique logs e métricas

Verifique o seguinte para identificar a causa-raiz da interrupção:

Eventos: para identificar a causa-raiz de uma interrupção não planejada em sua instância, visualize todos os eventos do Amazon RDS nas últimas 24 horas. Todos os eventos são registrados no horário UTC/GMT por padrão. Para armazenar eventos por mais tempo, envie os eventos do Amazon RDS para o Amazon CloudWatch Events. Para obter mais informações, consulte Criação de uma regra acionada em um evento do Amazon RDS.

Métricas do CloudWatch: visualize as métricas do CloudWatch para sua instância do Amazon RDS para verificar se o problema de carga do banco de dados causou a interrupção. Para obter mais informações, consulte Visualização de métricas e dimensões do Amazon RDS.

Veja as seguintes métricas e verifique se há limitação:

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • ReadIOPS
  • WriteIOPS
  • ReadLatency
  • WriteLatency
  • DiskQueueDepth

Enhanced Monitoring: o Amazon RDS entrega métricas do Enhanced Monitoring em sua conta do Amazon CloudWatch Logs. Isso fornece métricas em tempo real para o sistema operacional (SO) no qual sua instância de banco de dados é executada. Você pode visualizar todas as métricas do sistema e informações de processos das suas instâncias de banco de dados no console.

Você pode definir a granularidade do recurso Enhanced Monitoring como 1, 5, 10, 15, 30 ou 60.

Para ativar o Enhanced Monitoring para sua instância do Amazon RDS, consulte Configuração e ativação do Enhanced Monitoring.

Performance Insights: com o painel Performance Insights, você pode visualizar a carga do banco de dados e filtrar a carga por esperas, instruções SQL, hosts ou usuários. O painel contém informações relacionadas à performance do banco de dados que podem ajudá-lo a analisar e solucionar problemas de performance. Depois de ativar o recurso Performance Insights para sua instância de banco de dados, você poderá visualizar informações sobre a carga do banco de dados na página principal do painel.

Para visualizar o painel do Performance Insights para sua instância, faça o seguinte:

  1. Abra o console do Amazon RDS.
  2. No painel de navegação, escolha Performance Insights.
  3. Na página Performance Insights, selecione sua instância de banco de dados.
    Você pode visualizar o painel do Performance Insights para essa instância de banco de dados.

Se você ativou o Performance Insights para sua instância, também poderá visualizar o painel escolhendo o item Sessions (Sessões) na lista de instâncias de banco de dados.

Para obter mais informações, consulte Abertura do painel do Performance Insights.

Logs e eventos: para solucionar a causa da interrupção da instância de banco de dados do Amazon RDS for Oracle, visualize os logs de alerta localizados na guia Logs & Events (Logs e eventos) da sua instância.

Identifique as causas da interrupção

Os motivos de failover mais comuns no log de eventos em um ambiente multi-AZ são os seguintes:

  • O host principal da instância multi-AZ do RDS não está íntegro: esse motivo indica um problema transitório de hardware subjacente que levou à perda de comunicação com a instância primária. Esse problema pode ter tornado a instância não íntegra, porque o sistema de monitoramento do RDS não pôde se comunicar com a instância do RDS para realizar as verificações de integridade.
  • O host principal da instância multi-AZ do RDS está inacessível devido à perda de conectividade de rede: esse motivo indica que o failover de multi-AZ foi causado por um problema de rede transitório que afetou o host principal da sua implantação multi-AZ. O sistema de monitoramento interno detectou esse problema e iniciou proativamente um failover.
  • A instância primária do RDS multi-AZ está ocupada e não responde, A ativação da instância multi-AZ foi iniciada ou A ativação da instância multi-AZ foi concluída: o log de eventos mostra essas mensagens sob a seguintes situações:
    • A instância de banco de dados principal não responde.
    • Uma crise de memória no banco de dados impediu que o sistema de monitoramento do RDS contatasse o host subjacente.
    • A instância de banco de dados teve problemas de rede intermitentes com o host subjacente.
    • A instância sofreu uma carga de banco de dados. Nesse caso, você pode notar picos na utilização da CPU e no DatabaseConnections e no esgotamento da FreeableMemory.
      Observação: para evitar failover e reinicialização das instâncias do RDS devido à sobrecarga do banco de dados, configure os parâmetros de memória na instância de banco de dados adequadamente.
  • O volume de armazenamento subjacente ao host principal da instância multi-AZ do RDS sofreu uma falha: essa mensagem indica que o hardware de armazenamento subjacente teve um problema que levou a uma latência elevada do volume do Amazon Elastic Block Store (Amazon EBS). O host primário detectou uma degradação de performance e entrou em um estado de falha. Como medida proativa, o sistema de monitoramento iniciou um failover para o secundário.
  • A instância do RDS foi modificada pelo cliente: esta mensagem indica que o failover foi iniciado por uma modificação da instância do RDS.
  • O usuário solicitou um failover da instância de banco de dados: esta mensagem indica que você reinicializou a instância e escolheu Reiniciar com failover.

Para obter mais informações, consulte Processo de failover para o Amazon RDS.

Observação: para ser notificado sempre que houver um failover em sua instância do RDS, assine as notificações de eventos do Amazon RDS. Para obter mais informações, consulte Como faço para criar uma assinatura de evento do Amazon RDS?


Este artigo ajudou?


Precisa de ajuda com faturamento ou suporte técnico?