インシデント管理とは何ですか?

インシデント管理 (IM) は、IT チームが計画外のサービス中断に対応するために使用するプロセスです。ネットワーク接続が切断された、ネットワーク接続の質が低下している、スケジュールされたタスク (バックアップタスクなど) が実行されない、API が応答しないなどのインシデントにより、想定外の中断が発生します。インシデント管理プロセスでは、IT サービスの通常の運用を迅速に回復し、ビジネスへの影響を最小限に抑えることを試みます。そのプロセスにおいて、チームはインシデントを検出して調査し、問題を解決して、サービスを回復するために実行するステップを文書化します。

インシデント管理が必要なイベントにはどのようなものがありますか?

インシデント管理という用語は、IT 分野でのみ使用されるわけではありません。IT 以外では、緊急サービス、大規模イベント管理、プラント運営などの分野で IM について耳にするでしょう。

この記事では、IT サービス管理 (ITSM) という文脈の中での IM について言及します。この文脈では、インシデント管理は、サービスの質と顧客サービス自体に関する管理活動に焦点を当てています。

次に、ITSM における IM の範囲内のさまざまな IT イベントについて説明します。

インシデント

インシデント管理では、インシデントを、予想される、または合意された IT サービスの品質を低下させる予期しないイベントとして定義できます。インシデントの規模は小さくても大きくてもよく、また、重要度を示すこともできます。たとえば、サービス品質の低下は最小限に抑えられ、特定の地理的場所に限定される場合があります。あるいは、サービスが多数の地域で完全に停止する可能性があります。

問題

問題とは、インシデントの根本的な原因であり、詳細な調査を経て明らかになり、インシデントを完全に解決するために必要となります。たとえば、ウェブサーバーの動作が遅い場合、問題はデータセンターのルーターの設定ミス、または周辺のネットワークケーブルの切断である可能性があります。

変更

IM では、変更とは、サービス自体が変更されて品質が向上したり、新しい機能が追加されたりすることを指します。変更期間中は、通常の事業運営の中断を回避または最小限に抑えるために、ロールオーバーを慎重に処理する必要があります。これには、サービスの中断が予想される、または発生する可能性のあることをクライアントに知らせることも含まれます。

サービスリクエスト

サービスリクエストとは、プロバイダーとクライアント間の契約条件の範囲内でお客様が開始するリクエストです。リクエストは、通常の操作を中断することなく実行する必要があります。

インシデント管理はどのように機能しますか?

インシデント管理では、IT の中断による悪影響と期間を最小限に抑えるために何をすべきかを明確に説明した一連の文書化プロセスを使用します。何が問題だったのかという技術的管理とは別に、インシデント発生時の顧客、ユーザー、利害関係者の期待の管理も含まれます。

顧客については、サービスレベルアグリーメント (SLA) によって、予想される稼働時間の保証、解決時間、インシデント用のコミュニケーションチャネルが明確に定義されています。SLA の条件を満たすためには、サービスプロバイダー側の包括的なインシデント管理が必要です。

SLA について読む »

IT インシデント管理フレームワーク

組織が IM をモデル化するために使用するフレームワークはさまざまです。2 つの例としては、IT インフラストラクチャライブラリ (ITIL) 4 のインシデント管理と米国国立標準技術研究所 (NIST) のサイバーセキュリティフレームワークがあります。これらのフレームワークは、そのまま使用することも、独自のビジネス環境、サービス、顧客や利害関係者のコミュニケーション標準に合わせて拡張することもできます。

インシデント管理ソフトウェアは、組織内にフレームワークを展開するためによく使用されます。使用される正確なフレームワークは、提供されるサービスによって異なります。

 

インシデント管理プロセスにはどのようなステップがありますか?

インシデント管理プロセスに含まれる手順は、組織内で使用されているフレームワークによって異なります。次に、多くの一般的なインシデント管理ライフサイクルフレームワークにおける主なステップについて説明します。

リスクの特定

重要な資産、システム、データ、その他のリソースを特定することで、ビジネスにとって最大のリスクがどこにあるかが決まります。クライアントにサービスを提供するという点では、クライアントの最も重要なシステムや資産を特定することになります。

資産の保護

資産を特定したら、組織はセキュリティとパフォーマンスの管理を強化します。たとえば、アプリケーションを複数の地域に展開することで、地域で障害が発生した場合でも継続的に利用できるようにすることができます。 

インシデントの検出

重要な資産の状態を監視するシステムを導入して、インシデントをリアルタイムで特定できるようにする必要があります。組織は異常を積極的に監視する必要があります。通常、顧客からの報告で初めて障害を把握することは好ましくありません。先を見越した修復に重点が置かれています。

インシデントへの対応

インシデントが検出されたら、すぐにいかなる障害も止めなければなりません。これが不可能な場合は、プロセスに従って影響を抑えるか制限することができます。また、場合によっては、応急策がない場合でも稼働を再開できるように、二次システムを有効にする必要があります。  インシデントの性質や現在のインシデント管理ツールによっては、こうした対応の大部分が自動化されている場合があります。

インシデントからの回復

復旧段階では、インシデントの分析が始まります。得られた知見を把握し、改善された対応計画を策定し、問題とプロセスを修正します。大規模なインシデントでは、多大な復旧作業が必要になる場合があります。次の図は、Amazon Web Services (AWS) が使用するインシデント管理プロセスの 1 つを示しています。

インシデント管理のベストプラクティスは何ですか?

ベストプラクティスは、組織が特定のビジネスユニットまたは戦略的領域内で最も成熟したレベルで運用するのに役立ちます。インシデント管理システムのベストプラクティスに従うことで、顧客に可能な限り最高のサービスを提供できます。

エスカレーションポリシーの作成

タイムライン、修復、調査の指針となるように、インシデントを優先度と重大度に従って分類できる必要があります。インシデント対応が期待どおりに進まない場合や、優先度または重大度の高い重大なインシデントが発生した場合は、エスカレーションポリシーを制定する必要があります。これらのポリシーがなければ、チームは誰に連絡し、何をすべきかを決めるのに時間を浪費する可能性があります。

詳細なコミュニケーション設計

IT チームからエンドユーザーまでの利害関係者は、インシデントの状況を常に把握しておく必要があります。また、影響を受けた人々がどこで最新情報を入手したり、新しいインシデントを報告したりできるかがわかるように、明確なコミュニケーションチャネルを用意することも重要です。明確なコミュニケーション計画を立てることで、信頼を確立し、見当違いの非難を避けることができます。重大なインシデントは常に慎重に処理されます。 

根本原因分析を実行する

インシデントを解決したら、根本原因分析を実行して、インシデントが最初に発生した理由を理解する必要があります。これにより、システム内のギャップや脆弱性を特定し、今後同様のインシデントが発生するのを防ぐことができます。各インシデントから学んだ教訓は、IT インフラストラクチャとプロセスを継続的に改善するのに役立ちます。

カオスエンジニアリングの手法の採用

カオスエンジニアリングは、サーバー障害、ネットワーク遅延、リソース制限などの破壊的な条件にシステムを意図的にさらすソフトウェアエンジニアリングの分野です。システムにカオスを組み込むことは、その耐障害性を試すだけでなく、組織のインシデント対応と管理プロセスを強化することにもなります。これは、サイバーセキュリティインシデント管理に倫理的ハッキングを導入するのと似た手法です。

AWS はインシデント管理要件をどのようにサポートできますか?

AWS には、組織が AWS およびハイブリッド環境内で効果的なインシデント管理を実現するのに役立つさまざまなサービスがあります。

AWS Incident Detection and Response は、AWS エンタープライズサポートのお客様に、選択したワークロードの積極的なモニタリングおよびインシデント管理を提供します。専門家と協力して、インシデント発生時の復旧を早めるために、IT インシデント管理システムの重要な指標、アラーム、優先順位付けスケジュールを定義します。

AWS Managed Services (AMS) は、AWS のインシデント対応および解決機能により、組織の情報やインフラストラクチャを保護するのに役立ちます。AMS は AWS の IT インシデント管理をアウトソーシングする方法として使用できるため、組織はコアビジネスに集中できます。AMS では、次のようなことができます。

  • 運用上の問題やリクエストについて、AWS コンソールの AWS サポートセンターからいつでもサポートをリクエストできます。
  • 24 時間 365 日体制のサポートにアクセスできます (応答時間は選択したアカウントのサービスティア (Plus、Premium) によって異なります)。
  • 同じメカニズムを使用して、重要なアラートや質問の事前通知を受け取れます。

AWS Well-Architected フレームワークの一環として、クラウドインシデント管理に関する明確なガイダンスも提供しています。AWS クラウドサービスを使用する独自の IT サービスを提供する組織のインシデント管理の計画に役立つ優れたリソースです。AWS セキュリティインシデント対応ガイドは、セキュリティ関連のインシデントに役立つもう 1 つの資料です。

今すぐ AWS アカウントを作成して、AWS でのインシデント管理を開始しましょう。

AWS での次のステップ

追加の製品関連リソースを確認する
管理とガバナンスサービスの詳細  
無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。

サインアップ 
コンソールで構築を開始する

AWS マネジメントコンソールで構築を始めましょう。

サインイン