Amazon Web Services ブログ

AWS Systems Manager の新機能である Incident Manager で IT インシデントを迅速に解決

IT エンジニアは、アプリケーションやインフラストラクチャを構築する自らの能力と配慮に誇りを持っています。しかし、私たちの誰もが、どれほど認めることを嫌がったとしても、100% のアップタイムのようなものは存在しません。ものは、いつしか故障します。そして、その故障が最悪の瞬間に重なることもよくあります。その結果、1 日の終わりや誕生日パーティー、果ては結婚式が台無しになる (ご興味があれば詳しくお話しましょう) ことも多々あります。

静けさを切り裂くポケットベルの音に、当番のエンジニアはサービスを復旧させるため急行します。1 分、1 秒も無駄にできません。たとえば、エンジニアは大量の監視アラートを迅速にフィルタリングし、インシデントの根本原因を特定できなくてはなりません。そんな一刻を争うとき、インシデントの解決に必要な用途別のランブックや手順を探し回って無駄な時間を費やす余裕などありません。午前 3 時、津波のように次から次へと押し寄せる真っ赤なアラートを前に、「どこかに書いておいたはずの」魔法のコマンドを必死に探しているところを想像してみてください。 これは決して心地よいものではありません。

深刻な問題では、エスカレーションが必要な場合もよくあります。チームメンバーの助けが得らることは素晴らしいことですが、コラボレーションと迅速な解決には、効率的なコミュニケーションが欠かせません。それがなければ、まとまりのない行動は、状況を混乱させたり、悪化させたりする要因になりかねません。

最後にもう 1 つ、インシデントとその対応方法を文書化することも同様に重要です。インシデントが解決され、全員がしっかりと睡眠をとったあと、その状況をもう一度見直し、プラットフォームとインシデント対応手順を継続的に改善します。

これらすべてには、業界のベストプラクティスと適切なツールの用意など、多くの準備が必要です。ほとんどの企業や組織では、繰り返されるインシデントの中で、インシデントから学ぶ余裕がありません。これは、インシデントの準備と対応策を構築する上で、非常にいら立たしい状況です。

それゆえに、多くのお客様からこの課題に何か手立てはないかとお問い合わせをいただきました。そして、本日、Indicent Manager を発表できることを大変嬉しく思います。Indicent Manager は、 AWS Systems Manager の新機能であり、アプリケーションとインフラストラクチャのインシデントへの効率的な準備と対応を支援します。

すぐにでもお試しになりたい方は、Incident Manager コンソールにアクセスしてください。さらに詳しく知りたい方は、このままお付き合いください。

AWS Systems Manager に Incident Manager が登場
1995 年に Amazon.com を立ち上げて以来、Amazon チームはサービスのインシデント対応を担ってきました。長年にわたり、大規模なアプリケーションとインフラストラクチャの問題への多様な経験を積み重ねてきました。Amazon の Major Incident Management (主要インシデント管理) チームは、これらの長年の経験を活かして、すべての AWS のお客様がインシデントの準備と解決を迅速化できるように Incident Manager を設計しました。

この過程では準備が重要な要素であるため、Incident Manager では、アラームがなったときにすぐに使用できるインシデント対応リソース集を簡単に作成できます。これらのリソースには、次のものがあります。

  • 連絡先: インシデントの解決に携わるチームメンバーとメンバーへの連絡方法 (音声、電子メール、SMS)。
  • エスカレーションプラン: 最初の待機対応担当者がインシデントを受けなかった場合に、次に呼び出す担当者の連絡先。
  • 対応プラン: 対応担当者 (連絡先とエスカレーションプラン)、対応内容 (使用するランブック)、作業を行う場所 (AWS Chatbot に関連付けられたチャネル)。

Incident Manager

要するに、対応プランを作成するということは、標準化された方法でインシデントに対処する手順を準備するということで、インシデントが発生した際にすぐに対応し、迅速に解決できます。特に、対応プランは Amazon CloudWatch アラームまたは Amazon EventBridge イベント通知のいずれかを指定して、自動的にトリガーさせることもできます。必要に応じて、対応プランを手動で開始することもできます。

対応プランが開始されると、連絡先の担当者に通知が行き、Incident Manager コンソールに新しいダッシュボードが自動的に配置されます。このダッシュボードは、このインシデントに関係するすべての情報の基点となります。

  • このインシデントの概要であり、対応担当者が状況の要約を迅速かつ正確に入手できます。
  • インシデントに関連する CloudWatch のメトリックスとアラームの図。
  • Incident Manager によって追加されたすべてのイベント、および対応担当者が手動で追加したカスタムイベントを一覧表示するインシデントのタイムライン。
  • 対応プランに含まれているランブックと、実行の現在の状態。Incident Manager は、トリアージ、診断、緩和、および回復の手順を実装したデフォルトテンプレートを提供します。
  • 連絡先、およびチャットチャンネルへのリンク。
  • 関連する Systems Manager OpsItems のリスト。

ダッシュボードの例を次に示します。ご覧のとおり、ワンクリックで上記のすべてに、簡単にアクセスできます。

インシデントダッシュボード

インシデントの解決後、組み込みテンプレート (Amazon がエラー訂正に使用するテンプレートがベースになったもの) またはユーザーが作成したテンプレートを使用して、インシデント後の分析を作成できます。この分析は、インシデントの根本原因と、それを解決するために改善または迅速に実行できる可能性のある点を理解するのに役立ちます。

インシデントタイムラインを見直し、編集することで、特定のイベントとその対処方法に注目できます。このプロセスをガイドするための質問が、自動的に分析に追加されます。それらの質問に答えることで、改善の可能性や、インシデント対応手順への追加方法に目を向けられるようになります。ここで分析のサンプルを紹介します。質問の例をご覧いただけます。

インシデント分析

最後に、Incident Manager はアクションアイテムを推奨し、これらはユーザーが受け入れるか、拒否するかを決められます。アイテムを受け入れると、そのアイテムはチェックリストに追加されます。このチェックリストは、分析を終える前にすべて完了する必要があります。このアイテムは、AWS Systems Manager OpsCenter で OpsItem として整理保存され、Jira や ServiceNow などのチケット発行システムと同期できます。

開始方法
IT インシデントに適切に対応するための秘訣は、準備し、再び準備を見直し、さらにもう一度準備を見直して備えることです。備えあれば、憂いなし。将来、発生するかもしれない障害に今から備えましょう。ポケットベルが午前 3:00 に鳴り響いたとき、その違いを実感できます。

Incident Manager を使用し、準備、解決、分析のワークフローを改善することで、インシデントをより迅速に解決できると考えています。このサービスは現在、次の AWS リージョンでご利用可能です。

  • 米国東部 (バージニア北部)米国東部 (オハイオ)米国西部 (オレゴン)
  • 欧州 (アイルランド)欧州 (フランクフルト)欧州 (ストックホルム)
  • アジアパシフィック (東京)アジアパシフィック (シンガポール)アジアパシフィック (シドニー)

ぜひお試しいただき、ご意見をお聞かせください。いつものように、読者の皆様からのフィードバックをお待ちしています。通常の AWS サポートの連絡先までお寄せいただくか、AWS Systems Manager の AWS フォーラムから送信していただくことができます。

Incident Manager の詳細については、2021 年 5 月 12 日と 13 日に開催される AWS Summit Online イベントにサインアップしてください。