Come eseguo l'analisi delle cause principali di un failover e riavvio di Multi-AZ della mia istanza di Amazon RDS?

Ultimo aggiornamento: 29/09/2021

Desidero conoscere la causa principale del failover Multi-AZ e del riavvio dell'istanza Amazon Relational Database Service (Amazon RDS).

Breve descrizione

Quando si utilizza l’implementazione Multi-AZ per l'istanza database, Amazon RDS crea un'istanza database primaria in una zona di disponibilità associata a una sottorete. Quindi, RDS crea un'istanza database in standby in una zona di disponibilità diversa associata a una sottorete diversa. Per ulteriori informazioni, consulta Alta disponibilità (Multi-AZ) per Amazon RDS.

Amazon RDS riconosce gli scenari di errore più comuni delle implementazioni Multi-AZ e avvia automaticamente il ripristino, consentendoti di riprendere le operazioni di database con la massima rapidità senza alcun intervento manuale a livello amministrativo. Se hai abilitato la configurazione Multi-AZ per l'istanza di database, Amazon RDS passa automaticamente a una replica in standby in un'altra zona di disponibilità in caso di interruzione pianificata o non pianificata dell'istanza database. Amazon RDS effettua un failover automaticamente nei seguenti casi:

  • Calo di disponibilità nella zona di disponibilità principale
  • Perdita di connettività di rete nell'istanza principale
  • Errore dell'unità di elaborazione nell'istanza principale
  • Errore di archiviazione nell'istanza principale

Risoluzione

Controlla i registri e i parametri

Controlla quanto segue per identificare la causa principale dell'interruzione:

Eventi: Per identificare la causa principale di un'interruzione non pianificata nella tua istanza, visualizza tutti gli eventi Amazon RDS nelle ultime 24 ore. Tutti gli eventi sono registrati di default nell'orario UTC/GMT. Per archiviare gli eventi più a lungo, invia gli eventi Amazon RDS ad Amazon CloudWatch Events. Per ulteriori informazioni, consulta Creazione di una regola che attiva un evento Amazon RDS.

Parametri di CloudWatch: Visualizza i parametri di CloudWatch per la tua istanza Amazon RDS per verificare se il problema di caricamento del database ha causato l'interruzione. Per ulteriori informazioni, consulta Visualizzazione dei parametri e delle dimensioni di Amazon RDS.

Visualizza i seguenti parametri e verifica la limitazione:

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • ReadIOPS
  • WriteIOPS
  • ReadLatency
  • Latenza di scrittura
  • DiskQueueDepth

Monitoraggio avanzato: Amazon RDS fornisce i parametri di Monitoraggio Avanzato nel tuo account Amazon CloudWatch Logs. In questo modo vengono forniti i parametri in tempo reale per il sistema operativo (OS) su cui viene eseguita l'istanza database. Nella console è possibile consultare tutte le informazioni su processi e parametri di sistema per le istanze database.

È possibile impostare la granularità per la funzione di monitoraggio avanzato su 1, 5, 10, 15, 30 o 60.

Per attivare il monitoraggio avanzato per l'istanza Amazon RDS, consulta Configurazione e attivazione del monitoraggio avanzato.

Performance Insights: Con il pannello di controllo di Performance Insights, è possibile visualizzare il carico del database e filtrare il carico per attese, istruzioni SQL, host o utenti. Il dashboard contiene informazioni relative alle prestazioni del database che possono aiutarti ad analizzare e risolvere i problemi relativi alle prestazioni. Dopo aver attivato la caratteristica Performance Insights per l'istanza database, è possibile visualizzare le informazioni sul caricamento del database nella pagina principale del pannello di controllo.

Per visualizzare il pannello di controllo di Performance Insights per la tua istanza, procedi come segue:

  1. Apri la console di Amazon RDS.
  2. Nel pannello di navigazione, scegli Performance Insights.
  3. Nella pagina Performance Insights, seleziona l'istanza database.
    È possibile visualizzare il pannello di controllo di Performance Insights per questa istanza database.

Se hai attivato Performance Insights per la tua istanza, puoi anche visualizzare il pannello di controllo scegliendo l'elemento Sessioni nell'elenco delle istanze database.

Per ulteriori informazioni, consulta Apertura del pannello di controllo di Performance Insights.

Registri ed eventi: Per risolvere la causa dell'interruzione dell'istanza database di Amazon RDS for Oracle, visualizza i registri degli avvisi disponibili nella scheda Registri ed eventi della tua istanza.

Identifica le cause dell'interruzione

I motivi più comuni di failover nel registro eventi in un ambiente Multi-AZ sono i seguenti:

  • L'host principale dell'istanza RDS Multi-AZ non è integro: Questo motivo indica un problema hardware sottostante transitorio che ha portato alla perdita della comunicazione con l'istanza primaria. Questo problema potrebbe aver reso l'istanza non integra, poiché il sistema di monitoraggio RDS non è stato in grado di comunicare con l'istanza RDS per l'esecuzione dei controlli di integrità.
  • L'host principale dell'istanza RDS Multi-AZ non è raggiungibile a causa della perdita di connettività di rete: Questo motivo indica che il failover Multi-AZ è stato causato da un problema di rete transitorio che ha interessato l'host principale dell'implementazione Multi-AZ. Il sistema di monitoraggio interno ha rilevato questo problema e avviato in modo proattivo un failover.
  • L'istanza primaria di RDS Multi-AZ è occupata e non risponde,L'attivazione dell'istanza Multi-AZ è stata avviata o L'attivazione dell'istanza Multi-AZ completata: Il registro eventi mostra questi messaggi nelle seguenti situazioni:
    • L'istanza database principale non risponde.
    • Un crunch di memoria nel database ha impedito al sistema di monitoraggio RDS di contattare l'host sottostante.
    • L'istanza database ha riscontrato problemi di rete intermittenti con l'host sottostante.
    • L'istanza ha subito un caricamento del database. In questo caso, potresti notare picchi in CPUUtilization e DatabaseConnections e l'esaurimento di Freeablememory.
      Nota: Per evitare il failover e il riavvio delle istanze RDS a causa di un sovraccarico del database, configura i parametri di memoria sull'istanza database in modo appropriato.
  • Il volume di archiviazione sottostante l'host principale dell'istanza RDS Multi-AZ ha riscontrato un errore: Questo messaggio indica che l'hardware di archiviazione sottostante ha riscontrato un problema che ha portato a una latenza elevata del volume Amazon Elastic Block Store (Amazon EBS). L'host principale ha rilevato un peggioramento delle prestazioni ed è entrato in uno stato di errore. Come misura proattiva, il sistema di monitoraggio ha avviato un failover su secondario.
  • L'istanza RDS è stata modificata dal cliente: Questo messaggio indica che il failover è stato avviato da una modifica dell'istanza RDS.
  • L'utente ha richiesto un failover dell'istanza DB: Questo messaggio indica che l'istanza è stata riavviata e ha scelto Riavvia con failover.

Per ulteriori informazioni, consulta Processo di failover per Amazon RDS.

Nota: Per ricevere una notifica ogni volta che si verifica un failover sull'istanza RDS, iscriviti alle notifiche degli eventi di Amazon RDS. Per ulteriori informazioni, consulta Come si crea una sottoscrizione a un evento Amazon RDS?


Questo articolo è stato utile?


Hai bisogno di supporto tecnico o per la fatturazione?