如何針對 Amazon RDS 執行個體的異地同步備份容錯移轉和重啟執行根本原因分析?

上次更新日期︰2021 年 9 月 29 日

我想要知道異地同步備份容錯移轉和重新啟動 Amazon Relational Database Service (Amazon RDS) 執行個體的根本原因。

簡短描述

您針對資料庫執行個體使用異地同步備份部署時,Amazon RDS 會在一個與子網路關聯的可用區域中建立主要資料庫執行個體。然後,RDS 會在與不同子網路關聯的不同可用區域中建立待命資料庫執行個體。如需詳細資訊,請參閱 Amazon RDS 的高可用性 (多可用區域)

Amazon RDS 可偵測異地同步備份部署中最常見的故障並自動從中恢復,讓您在無管理介入的情況下盡快恢復資料庫操作。如果您針對資料庫執行個體啟用異地同步備份組態,則 Amazon RDS 在資料庫執行個體發生計劃內或計劃外中斷時,會自動切換至另一個可用區域中的備用複本。如果發生以下任何一種情況,Amazon RDS 將自動執行容錯移轉:

  • 主可用區域的可用性受損
  • 主可用區域的網路連線能力受損
  • 主可用區域的運算單位故障
  • 主可用區域的儲存故障

解決方案

檢查日誌和指標

檢查下列項目,以識別中斷的根本原因:

事件:若要識別執行個體計劃外中斷的根本原因,請檢視過去 24 小時內的所有 Amazon RDS 事件。依預設,所有事件都會以 UTC/GMT 時間註冊。若要存放事件更長時間,請將 Amazon RDS 事件傳送至 Amazon CloudWatch Events。如需詳細資訊,請參閱建立根據 Amazon RDS 事件觸發的規則

CloudWatch 指標:檢視 Amazon RDS 執行個體的 CloudWatch 指標,以檢查資料庫負載問題是否導致中斷。如需詳細資訊,請參閱檢視 Amazon RDS 指標和維度

檢視下列指標並檢查調節:

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • ReadIOPS
  • WriteIOPS
  • ReadLatency
  • Write Latency
  • DiskQueueDepth

增強監控:Amazon RDS 會將指標從增強型監控傳送至您的 Amazon CloudWatch Logs 帳戶。這會提供您執行資料庫執行個體之作業系統 (OS) 的即時指標。您可以在主控台上檢視資料庫執行個體的所有系統指標和處理資訊。

您可以將「增強監控」功能的精密度設定為 1、5、10、15、30 或 60。

若要開啟 Amazon RDS 執行個體的「增強監控」功能,請參閱設定和啟用增強監控

績效詳情:透過績效詳情儀表板,您可以視覺化資料庫負載,並依等待、SQL 陳述式、主機或使用者來篩選負載。儀表板包含與資料庫效能相關的資訊,可協助您分析及對效能問題進行疑難排解。 開啟資料庫執行個體的「績效詳情」功能後,您可以在主儀表板頁面上檢視資料庫負載的相關資訊。

若要檢視執行個體的績效詳情儀表板,請執行下列動作:

  1. 開啟 Amazon RDS 主控台
  2. 在導覽窗格中,選擇 Performance Insights (績效詳情)。
  3. 在 Performance Insights (績效詳情) 頁面上,選取您的資料庫執行個體。
    您可以檢視該資料庫執行個體的績效詳情儀表板。

如果您開啟執行個體的績效詳情,則也可以在資料庫執行個體清單中選擇 Sessions (工作階段) 項目來檢視儀表板。

如需詳細資訊,請參閱開啟績效詳情儀表板

日誌和事件:若要對 Amazon RDS for Oracle 資料庫執行個體的中斷原因進行疑難排解,請檢視執行個體的 Logs & Events (日誌和事件) 標籤中的提醒日誌。

識別中斷的原因

異地同步備份環境的事件日誌中最常見的容錯移轉原因如下:

  • RDS 異地同步備份執行個體的主要主機運作狀態不佳:該原因表示暫時性的基礎硬體問題,這會導致主要執行個體的通訊中斷。該問題可能會導致執行個體運作狀態不佳,因為 RDS 監控系統無法與 RDS 執行個體通訊,以執行運作狀態檢查。
  • 網路連線中斷導致 RDS 異地同步備份執行個體的主要主機無法連線:該原因表示異地同步備份容錯移轉,是由影響異地同步備份部署主要主機的暫時性網路問題造成的。內部監控系統偵測到此問題,並主動啟動容錯移轉。
  • RDS 異地同步備份主要執行個體忙碌且無回應已啟動異地同步備份執行個體啟用,或已完成異地同步備份執行個體啟用:事件日誌會在下列情況下顯示這些訊息:
    • 主要資料庫執行個體無回應。
    • 資料庫中的記憶體不足會阻止 RDS 監控系統連線基礎主機。
    • 資料庫執行個體在基礎主機上遇到間歇性網路問題。
    • 執行個體遇到資料庫負載。在此情況下,您可能會注意到 CPUUtilization 和 DatabaseConnections 出現峰值,且 Freeablememory 耗盡。
      注意:若要避免因資料庫超載而導致 RDS 執行處理容錯移轉並重新啟動,請在資料庫執行個體上適當地設定記憶體參數。
  • RDS 異地同步備份執行個體主要主機的基礎儲存磁碟區發生故障:此訊息表示基礎儲存硬體遇到導致 Amazon Elastic Block Store (Amazon EBS) 磁碟區延遲增加的問題。主要主機偵測到效能降低並進入失敗狀態。作為一項主動措施,監控系統啟動了次要容錯移轉。
  • RDS 執行個體已由客戶修改:此訊息表示容錯移轉由 RDS 執行個體修改啟動。
  • 使用者請求資料庫執行個體的容錯移轉:此訊息表示重新啟動執行個體,並選擇透過容錯移轉重新啟動。

如需詳細資訊,請參閱 Amazon RDS 的容錯移轉程序

注意:若要在 RDS 執行個體發生容錯移轉時收到通知,請訂閱 Amazon RDS 事件通知。如需詳細資訊,請參閱如何建立 Amazon RDS 事件訂閱?


此文章是否有幫助?


您是否需要帳單或技術支援?