Perché la mia istanza database Amazon RDS è stata riavviata, ripristinata o sottoposta a failover?

9 minuti di lettura

Desidero conoscere la causa principale del riavvio, del ripristino o del failover della mia istanza database Amazon Relational Database Service (Amazon RDS).

Breve descrizione

L'istanza database di Amazon RDS esegue automaticamente un riavvio nelle seguenti condizioni:

C'è una perdita di disponibilità nella zona di disponibilità primaria o un carico di lavoro eccessivo a causa di colli di bottiglia delle prestazioni e conflitti tra risorse.
Si è verificato un problema con l'infrastruttura sottostante con l'istanza primaria, ad esempio la perdita della connettività di rete all'istanza primaria, il problema dell'unità di elaborazione sul server principale o il problema di archiviazione sempre sul server principale.
Il tipo di classe dell'istanza database viene modificato nell'ambito dell'attività di dimensionamento verticale dell'istanza database.
L'host sottostante dell'istanza database di RDS è sottoposto a patch software durante una finestra di manutenzione specifica. Per ulteriori informazioni, consulta Manutenzione di un'istanza database e Aggiornamento della versione del motore di istanza database.
È stato avviato un riavvio manuale dell'istanza database utilizzando le opzioni Reboot (Riavvia) o Reboot with failover (Riavvia con failover).

Quando l'istanza database mostra potenziali problemi e non risponde ai controlli dell'integrità di RDS, RDS avvia automaticamente un ripristino Single-AZ per l'implementazione Single-AZ e un failover Multi-AZ per l'implementazione Multi-AZ. Quindi, l'istanza database viene riavviata in modo da poter riprendere le operazioni del database il più rapidamente possibile senza alcun intervento amministrativo.

Risoluzione

Per identificare la causa dell'interruzione, controlla i registri e i parametri seguenti per l'istanza database di RDS.

Eventi Amazon RDS

Per identificare la causa principale di un'interruzione non pianificata nella tua istanza, visualizza tutti gli eventi Amazon RDS per le ultime 24 ore. Tutti gli eventi sono registrati di default nell'orario UTC/GMT. Per archiviare gli eventi più a lungo, invia gli eventi Amazon RDS ad Eventi Amazon CloudWatch. Per ulteriori informazioni, consulta Creazione di una regola che attiva un evento Amazon RDS. Al riavvio dell'istanza, nelle notifiche degli eventi di RDS viene visualizzato uno dei seguenti messaggi:

L'istanza RDS è stata modificata dal cliente: questo messaggio indica che il failover è stato avviato da una modifica dell'istanza RDS.
Applicazione della modifica alla classe dell'istanza database: questo messaggio dell'evento RDS indica che il tipo di classe dell'istanza database è stato modificato.
- Durante questa operazione di scalabilità, le implementazioni Single-AZ non sono più disponibili per alcuni minuti.
- Le implementazioni Multi-AZ non sono disponibili durante il tempo necessario per il failover dell'istanza. Questa durata è in genere di circa 60 secondi. Questo perché il database in standby viene aggiornato prima che il database appena dimensionato subisca un failover. Quindi, il database viene riavviato e il motore esegue il ripristino per assicurarsi che il database rimanga in uno stato coerente.
L'utente ha richiesto un failover dell'istanza database: questo messaggio indica che è stato avviato un riavvio manuale dell'istanza database utilizzando l'opzione Reboot (Riavvia) o Reboot with failover (Riavvia con failover).
L'host principale dell'istanza Multi-AZ di RDS non è integro: questo motivo indica un problema hardware sottostante transitorio che ha portato alla perdita della comunicazione con l'istanza primaria. Questo problema potrebbe aver reso l'istanza non integra, poiché il sistema di monitoraggio RDS non è riuscito a comunicare con l'istanza RDS per l'esecuzione dei controlli dell'integrità.
L'host principale dell'istanza Multi-AZ di RDS non è raggiungibile a causa della perdita di connettività di rete: questo motivo indica che il failover Multi-AZ è stato causato da un problema di rete transitorio che ha interessato l'host principale dell'implementazione Multi-AZ. Il sistema di monitoraggio interno ha rilevato questo problema e avviato in modo proattivo un failover.
L'istanza primaria Multi-AZ di RDS è occupata e non risponde, l'attivazione dell'istanza Multi-AZ è stata avviata o l'attivazione dell'istanza Multi-AZ è stata completata: il registro di eventi mostra questi messaggi nelle seguenti situazioni:
- L'istanza database principale non risponde.
- Un crunch di memoria dopo un consumo eccessivo di memoria nel database ha impedito al sistema di monitoraggio RDS di contattare l'host sottostante. Quindi il database viene riavviato dal nostro sistema di monitoraggio come misura proattiva.
- L'istanza database ha riscontrato problemi di rete intermittenti con l'host sottostante.
- L'istanza ha subito un caricamento del database. In questo caso, potresti notare picchi nei parametri di CloudWatch CPUUtilization, DatabaseConnections, nei parametri IOPS e nei dettagli del throughput. Potresti anche notare l'esaurimento di Freeablememory.
Istanza database sottoposta a patch: questo messaggio indica che l'istanza database ha subito un aggiornamento della versione secondaria durante una finestra di manutenzione perché l'impostazione Aggiornamento automatico della versione secondaria è abilitata sull'istanza.

Parametri di CloudWatch

Visualizza i parametri di CloudWatch per la tua istanza Amazon RDS per verificare se l'interruzione è stata causata dal problema di caricamento del database. Per ulteriori informazioni, consulta Monitoraggio dei parametri di Amazon RDS con Amazon CloudWatch. Verifica la presenza di picchi nei seguenti parametri chiave che indicano la disponibilità e lo stato di integrità dell'istanza RDS:

DatabaseConnections
CPUUtilization
FreeableMemory
WriteIOPS
ReadIOPS
ReadThroughput
WriteThroughput
DiskQueueDepth

Monitoraggio avanzato

Amazon RDS fornisce i parametri di monitoraggio avanzato nel tuo account di File di log Amazon CloudWatch. In questo modo vengono forniti i parametri in tempo reale per il sistema operativo su cui viene eseguita l'istanza database. Nella console è possibile consultare tutte le informazioni su processi e parametri di sistema per le istanze database.

È possibile impostare la granularità per la funzione di monitoraggio avanzato su 1, 5, 10, 15, 30 o 60.

Per attivare il monitoraggio avanzato per l'istanza Amazon RDS, consulta Configurazione e attivazione del monitoraggio avanzato.

Performance Insights

Il pannello di controllo di Performance Insights contiene informazioni relative alle prestazioni del database che possono aiutarti ad analizzare e risolvere i problemi relativi alle prestazioni. Puoi inoltre identificare le query e gli eventi di attesa che consumano risorse eccessive nell'istanza database. Performance Insights raccoglie i dati a livello di database e li visualizza nel pannello di controllo di Performance Insights. Per ulteriori informazioni, consulta Monitoraggio del carico del database con Performance Insights su Amazon RDS. Quando viene generato un aumento del consumo di risorse dal lato dell'applicazione, utilizza l'ID SQL di supporto del pannello di controllo di Performance Insights e abbinalo alla query corrispondente. È consigliabile utilizzare queste informazioni per ottimizzare le prestazioni della query e ottimizzare il carico di lavoro utilizzando le indicazioni del DBA:

Apri la console Amazon RDS.
Nel pannello di navigazione, scegli Performance Insights.
Nella pagina Performance Insights, seleziona l'istanza database. Puoi visualizzare il pannello di controllo di Performance Insights per questa istanza database.
Seleziona l'intervallo di tempo in cui si è verificato il problema.
Scegli la scheda Top SQL (Prime istruzioni SQL).
Scegli l'icona delle impostazioni, quindi attiva l'ID supporto.
Scegli Save (Salva).

Registri del database RDS

Per risolvere il problema di interruzione dell'istanza database di Amazon RDS, puoi visualizzare, scaricare o guardare i file di log del database utilizzando la console o le operazioni API di Amazon RDS. Puoi anche interrogare i file di registro del database caricati nelle tabelle del database. Per ulteriori informazioni, consulta Monitoraggio dei file di log di Amazon RDS.

Tieni a mente le seguenti best practice quando gestisci le interruzioni delle istanze RDS:

Abilita l'implementazione Multi-AZ sulla tua istanza per ridurre i tempi di inattività durante un'interruzione. Con un'implementazione Multi-AZ, RDS effettua automaticamente il provisioning e mantiene una replica di standby sincrona in una zona di disponibilità diversa o due standby leggibili. Per ulteriori informazioni, consulta Amazon RDS Multi-AZ.
Regola la finestra di manutenzione dell'istanza database in base alle tue preferenze. L'istanza database non è disponibile durante questo periodo solo se le modifiche di sistema, ad esempio una modifica nella classe di istanza database, vengono applicate e richiedono un'interruzione e solo per il tempo minimo necessario per apportare le modifiche necessarie. Per ulteriori informazioni, consulta Gestione di un'istanza database. Se non desideri che le tue istanze vengano sottoposte ad aggiornamenti automatici delle versioni secondarie, puoi disattivare questa opzione. Per ulteriori informazioni, consulta Aggiornamento automatico della versione secondaria del motore.
Accertati di disporre di risorse sufficienti allocate al database per eseguire le query. Con Amazon RDS, la quantità di risorse allocate dipende dal tipo di istanza. Inoltre, alcune query, come le stored procedure, potrebbero richiedere una quantità illimitata di memoria. Pertanto, se l'istanza si riavvia frequentemente a causa della mancanza di risorse, è consigliabile aumentare la classe di istanza del database per tenere il passo con le crescenti esigenze delle applicazioni.
Per evitare la limitazione delle istanze, configura gli allarmi Amazon CloudWatch sui parametri chiave di RDS che indicano la disponibilità e lo stato di integrità delle istanze RDS. Ad esempio, puoi impostare un allarme CloudWatch sul parametro FreeableMemory in modo da ricevere una notifica quando la memoria disponibile raggiunge il 95%. È consigliabile mantenere almeno il 5% della memoria dell'istanza libera. Per ulteriori informazioni, consulta In che modo è possibile filtrare i log CloudWatch del monitoraggio avanzato per generare parametri personalizzati automatizzati per Amazon RDS?
Per ricevere una notifica ogni volta che si verifica un failover sull'istanza RDS, iscriviti alle notifiche degli eventi di Amazon RDS. Per ulteriori informazioni, consulta Come si crea una sottoscrizione a un evento Amazon RDS?
Per ottimizzare le prestazioni del database, assicurati che le tue query siano correttamente ottimizzate. In caso contrario, potrebbero verificarsi problemi con le prestazioni e tempi di attesa prolungati.
Per risolvere qualsiasi tipo di carico in termini di CPU, memoria o qualsiasi altra riduzione delle risorse, consulta Come posso risolvere i problemi relativi all'elevato utilizzo della CPU per Amazon RDS o Amazon Aurora PostgreSQL?

Informazioni correlate

Best practice per Amazon RDS

Quali fattori incidono sul mio tempo di inattività o sulle prestazioni del database in Amazon RDS?

Perché la mia istanza database di Amazon RDS ha eseguito il failover?

Come posso ridurre al minimo i tempi di inattività durante la manutenzione di Amazon RDS?

In che modo posso controllare le query in esecuzione e diagnosticare i problemi di consumo delle risorse per la mia istanza database compatibile con Amazon Aurora PostgreSQL o Amazon RDS?

Argomenti

Migrazione e modernizzazione Analisi Database

Tag

Amazon Relational Database Service

Lingua

Italiano

AWS UFFICIALEAggiornata 2 anni fa

Contenuto pertinente

Perché la mia istanza di database Amazon RDS rimane a lungo nello stato di ottimizzazione dell'archiviazione?
AWS UFFICIALEAggiornata un anno fa
Perché la mia istanza database Amazon RDS è fallita?
AWS UFFICIALEAggiornata 10 mesi fa
Perché la mia istanza database di Amazon RDS per MySQL è bloccata in “Riavvio”?
AWS UFFICIALEAggiornata 2 anni fa
Perché la mia istanza di RDS per SQL Server è bloccata nello stato di riavvio?
AWS UFFICIALEAggiornata 2 anni fa