Amazon Web Services ブログ

CloudWatch アラームと OpsCenter の新しい統合

1 年以上前に、OpsCenter という AWS Systems Manager の一機能の立ち上げについての記事を書きました。この機能を使用することで、お客様は問題、イベント、アラートを 1 か所に集約し、運用エンジニアと IT 担当者が問題の調査や修復のために、それらを容易に扱えるようにすることができます。本日は、この機能と Amazon CloudWatch アラームの新しい統合についてご紹介します。

CloudWatch アラームでアラーム起動条件が揃うと、ユーザーは Systems Manager OpsCenter の中に、操作作業項目 (OpsItem) を自動的に作成できるようになります。

たとえば、EC2 インスタンスの CPU 使用率が 75% を超えた場合、OpsItem を自動的に作成するようにアラームを設定できます。このアイテムには、エンジニアが問題を解決するために必要なすべての情報が含まれており、チームの生産性を向上し、問題の調査を迅速化するために必要なツールを提供します。

複数のメトリクスのアラームを組み合わせることもできます。たとえば、両方の CPU 使用率が 75% を超え、ロードバランサーのレイテンシーが 100 ミリ秒を超えた場合にのみトリガーされる複合アラームを作成できます。このように、CPU 使用率が上昇した場合でも、ロードバランサーの反応があるインスタンスを無視できます。

この新しい統合の仕組みを解説するために、アラームが発生したときに OpsItem の作成をトリガーするアラームを作成してみましょう。まず、CloudWatch アラームコンソールにアクセスします。

アラームの発行
コンソールで [アラームを作成] ボタンをクリックして、新しい アラームを作成します 。

[メトリクスの選択] ボタンをクリックすると、CloudWatch でモニタリングするメトリクスを選択できるようになります。

モニタリングするインスタンスとメトリクスを選択します。ここではCPUUtilization です。その後、[メトリクスの選択] ボタンをクリックします。

[メトリクスと条件の指定] 画面で、[しきい値の種類] に [静的] を選択し、CPU Utilization が 75 を超えると、状態がアラームに変わるように設定します。

OpsItem の作成
次に、アラームのアクションを設定します。通知セクションの [削除] ボタンをクリックします。これにより、デフォルトのアクションが削除されます。次に、[Systems Manager OpsCenter アクション] セクションまでスクロールし、[Systems Manager OpsCenter アクションを追加] ボタンを押します。

OpsItem の重大度として [ミディアム] を選択します。カテゴリはオプションですが、[パフォーマンス] を選択します。この統合は通知と異なり、アラームがアラーム状態になったときにのみトリガーされます。OK または不足条件に対して OpsItem を作成することはできません。[次へ] をクリックしてアクションを作成します。

最後に、このアラームに名前と説明を入力します。

次の画面では、すべてのアラーム設定を確認します。設定のとおりで問題ないので、[作成] ボタンをクリックします。

これでアラームがアクティブになり、システムが選択したメトリクスのモニタリングを開始します。

このデモでは、EC2 インスタンスで CPU ストレステストを実行します。CPU を限界まで作動させ、新しく作成したアラームをトリガーするというシナリオです。

数分後、CloudWatch アラームコンソールをチェックして、アラームがアラーム状態になっていることを確認します。

OpsItem の表示
新しい統合によって OpsItem の作成がトリガーされ、Systems Manager OpsCenter コンソールに移動すると、新しく作成された OpsItem が表示されます。

OpsItem をドリルダウンすると、詳細を見ることができます。アラームがトリガーされたときの CPU 使用率、問題を解決するための ランブックの提案、および関連するリソースに関する情報を見ることができます。

問題の解決に必要なすべての重要な情報は OpsItem にあります。たとえば、[関連リソース] セクションでアラームのリソース ARN をクリックすると、OpsCenter を離れることなく CPUUtilization のグラフを確認できます。

同様に、EC2 インスタンスの Resource ARN をクリックすると、OpsCenter を離れることなく、そのリソースに関する関連情報が表示されます。

ランブックセクションには、問題を自動的に解決する可能性のある推奨されるランブックリストが表示されます。現実世界では、システムの一般的な問題を解決するためのカスタムランブックがあるかもしれませんが、昔ながらの IT のトリックを使ってオフにし、OpsItem から AWS-Resartec2Instance ランブックを直接実行することで再びオンにします。

今回のデモで、この新しい統合により、問題を迅速に通知し、重要な調査データを 1 か所で入手できるようにすることで、エンジニアの生産性が向上できることをお分かりいただければ幸いです。

便利なヒント

Systems Manager OpsCenter アクションは、既存の通知と並行して動作します。したがって、どちらか一方を選択する必要はなく、たとえば、既存のサポートメカニズムを引き続き使用するなど、SNS 経由での通知をそのまま保持することができます。

OpsCenter はアラームイベントを重複除外します。これにより、アラームの状態でアラームが複数の OpsItems を作成する可能性がある「フラッピング問題」を回避できます。

今すぐご利用いただけます
今回ご紹介した、AWS Systems Manager OpsCenter と Amazon CloudWatch アラーム間の新しい統合は、Systems Manager が提供されているリージョンのすべてでご利用いただけます。開始するには、AWS マネジメントコンソールの CloudWatch アラームセクションにアクセスし、最初の Systems Manager OpsCenter アクションをアタッチしてください。また、統合の仕組みについて、さらに詳しい内容については、ドキュメントをご覧ください。

アラームを活用しよう

– Martin