CloudWatch アラームを使用して Amazon OpenSearch Service クラスターをモニタリングするにはどうすればよいですか?

最終更新日: 2021 年 9 月 30日

Amazon OpenSearch Service (Amazon Elasticsearch Service の後継サービス) クラスターの安定性の問題をモニタリングしたいと考えています。クラスターを効果的にモニタリングするにはどうすればよいですか?

解決方法

重要: Elasticsearch のバージョンが異なると、_index API の呼び出しを処理するために異なるスレッドプールが使用されます。

  • Elasticsearch バージョン 1.5 および 2.3 では、インデックススレッドプールが使用されます。
  • Elasticsearch バージョン 5.x、6.0、および 6.2 では、一括スレッドプールが使用されます。(現在、OpenSearch Service コンソールには、一括スレッドプールのグラフは含まれていません。)
  • Elasticsearch バージョン 6.3 以降では、書き込みスレッドプールが使用されます。

OpenSearch Service クラスターの状態をモニタリングするには、推奨される Amazon CloudWatch アラームと次の OpenSearch Service クラスターメトリクスアラームを設定します。

  • MasterReachableFromNode
  • KibanaHealthyNodes
  • DiskQueueDepth
  • ThreadpoolIndexQueue
  • ThreadpoolSearchQueue

OpenSearch Service メトリクスアラームは、次のように設定できます。

MasterReachableFromNode:
Statistic = Maximum
Value = ‘=0’
Frequency = 1 period
Period = 1 minute
Issue: Leader node is down.

KibanaHealthyNodes:
Statistic = Average
Value = ‘=0’
Frequency = 1 period
Period = 1 minute
Issue: Indicates that the kibana index is unhealthy.

DiskQueueDepth:
Statistic = Average
Value = ‘>=100'
Frequency = 1 period
Period = 5 minutes
Issue: Disk Queue Depth is the number of I/O requests that are queued at a time against the storage. This could indicate a surge in requests or Amazon EBS throttling, resulting in increased latency.

ThreadpoolIndexQueue and ThreadpoolSearchQueue:
Statistic = Maximum
Value = ‘>=20’
Frequency = 1 period
Period = 1 minute
Issue: Indicates that there are requests getting queued up, which can be rejected. To verify the request status, check the CPU Utilization and Threadpool Index or Search rejects.

OpenSearch Service クラスターの Amazon CloudWatch アラームを設定するには、以下の手順を実行します。

1.    Amazon CloudWatch コンソールを開きます。

2.    [アラーム] タブに移動します。

3.    [アラームの作成] を選択します。

4.    [メトリクスの選択] を選択します。

5.    メトリクスについて [ES] を選択します。

6.    [ドメインごとのメトリクス] および [クライアントあたりのメトリクス] を選択します。

7.    メトリクスを選択し、[次へ] をクリックします。

8.    Amazon CloudWatch アラームについて、以下の設定を行います。

Statistic = Maximum
Period to 1 minute
Threshold type = Static
Alarm condition = Greater than or equal to
Threshold value = 1

9.    [その他の設定] タブを選択します。

10.    次の設定を更新します。

Datapoints to alarm = Frequency stated above
Missing data treatment = Treat missing data as ignore (maintain the alarm state)

11.    [次へ] を選択します。

12.    アラームで実行するアクションを選択し、[Next] (次へ) を選択します。

13.    アラームの名前を設定し、[次へ] をクリックします。

14.    [Create Alarm] (アラームの作成) を選択します。

注: CPUUtilization または JVMMemoryPressure に対してアラームがトリガーされた場合は、Amazon CloudWatch のメトリクスをチェックして、受信リクエストと一致するスパイクがあるかどうかを確認します。特に、これらの Amazon CloudWatch メトリクス (IndexingRateSearchRate、および OpenSearchRequests) をモニタリングします。


この記事はお役に立ちましたか?


請求に関するサポートまたは技術サポートが必要ですか?