如何提升我的 Amazon OpenSearch Service 網域容錯能力?
上次更新日期:2021 年 7 月 30 日
我想要保護 Amazon OpenSearch Service 資源,避免意外刪除、應用程式或硬體故障或中斷。改善容錯能力或恢復快照的最佳實務有哪些?
簡短描述
若要改善 OpenSearch Service 網域的容錯能力,請考慮下列最佳實務:
- 擷取一般索引快照。
- 使用 Amazon CloudWatch 指標來監控 OpenSearch Service 資源。
- 了解 OpenSearch 服務配額。
- 使用專用主節點
- 使用至少三個節點。
- 啟用區域感知。
- 不要在生產環境中使用 T2 執行個體。
解決方案
擷取一般索引快照
所有 OpenSearch Service 網域都會自動擷取快照。手動擷取索引快照,在 OpenSearch Service 網域中建立資料的時間點備份。將快照儲存在 Amazon Simple Storage Service (Amazon S3) 儲存貯體中。您也可以使用手動擷取索引快照在 OpenSearch Service 網域之間遷移資料,或將資料恢復至其他 OpenSearch Service 網域。
監控 Amazon CloudWatch 指標
- 使用 OpenSearch Service 主控台中的叢集運作狀態和執行個體運作狀態標籤來監控叢集的 Amazon CloudWatch 指標。
- 針對重要的 OpenSearch Service 指標,建立 Amazon CloudWatch 警示。例如,監控 AutomatedSnapshotFailure 指標,以確認自動快照是否定期執行。如需教學資訊,請參閱開始使用 OpenSearch Service:在關鍵指標上設定 CloudWatch 警示。
使用專用主節點
專用主節點有助於預防因過載節點所造成的問題。在以下情況發生時,請使用專用主節點:
- 您的網域在生產環境中使用。
- 您的網域有五個以上的節點。
- 您的索引映射很複雜,跨類型和索引定義了許多欄位。
使用至少三個節點
若要避免無意中分割的網路 (分割大腦),請至少使用三個節點。若要避免潛在的資料遺失,請確定每個索引至少有一個複本。(依預設,每個索引都有一個複本。)
啟用區域感知
區域感知有助於預防停機時間和資料遺失。啟用區域感知時,OpenSearch Service 會將節點和複本索引碎片分配給相同 AWS 區域中的兩個或三個可用區域。
注意:若要設定三個可用區域,請使用索引的兩個複本。如果單一區域故障,這兩個複本可承擔 100% 的資料備援。
請勿在生產環境中使用 T2 執行個體
為配合生產環境,請使用 M 級或更大的 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體。若您使用 T2 執行個體類型,請務必監控執行個體的 CPU 積分、CPU 用量、記憶體用量和穩定性。必要時請擴充規模或水平擴展。
此外,請注意下列 T2 執行個體的限制:
- T2 執行個體已指派 CPU 積分。如果網路流量達到峰值,您的 OpenSearch Service 叢集可能會超過 T2 執行個體中可用的 CPU 積分數量。如需詳細資訊,請參閱爆量效能執行個體的 CPU 積分和基準使用率。
- T2 執行個體的 EBS 磁碟區限制為 35 GB。
- T2 執行個體的酬載限制為 10 MB。請確定您的請求酬載未超過酬載限制。如需有關 OpenSearch Service 網路限制的詳細資訊,請參閱網路限制。
- 只有在您的 OpenSearch Service 執行個體計數為十或更少時,才能使用 T2 執行個體類型。如需支援的 OpenSearch Service 執行個體類型的詳細資訊,請參閱支援的執行個體類型。
- T2 執行個體類型不得用作資料節點或專用主節點。在持續高負載下,T2 執行個體類型可能會變得不穩定。如需詳細資訊,請參閱 OpenSearch Service 最佳實務。