アプリケーションのレジリエンスを向上するための AWS Incident Detection and Response

航空会社の予約、フライト追跡、リワードプログラム、手荷物追跡、機内エンターテインメントなどの重要な機能を扱うアプリケーションは、乗客の航空旅行体験を変革しています。これらのアプリケーションに障害が発生すると、乗客に不便をもたらすだけでなく、最悪の場合、収益と乗客の信頼を失うことにもなりかねません。大幅な遅延につながる障害が発生した場合、航空会社に対してペナルティが科される可能性もあります。

航空会社のアプリケーションをクラウドに移行することで、スケーラビリティの向上と災害復旧能力の強化により、システム障害を軽減することができますが、クラウド運用の管理には課題が伴う場合があります。これらの課題には、クラウドコンピューティングスキルの不足、レガシーシステムとの統合、旧式のインシデント管理プロトコル、オンプレミスインフラへの依存、そして旧式の監視ソリューションの使用といった要因が含まれます。

このブログでは、ある大手航空会社がクラウド運用を改善するために、ミッションクリティカルなアプリケーションをAWS Incident Detection and Response (IDR)に移行した方法について説明します。

AWS incident Detection and Responseとは？

AWS Incident Detection and Responseは、重要なワークロードに対してプロアクティブな対応とインシデント管理を提供します。AWS Incident Detection and Responseでは、AWSインシデント管理エンジニア（IME）が24時間365日体制でワークロードを監視し、インシデントを検知し、AWSサポートの専門家と連携して、問題の緩和と復旧に向けたガイダンスを提供します。

Observabilityの向上：アプリケーション層とインフラストラクチャ層の間で適切な可観測性を確保し、ワークロードの障害を検知できるようにします。

より迅速な解決：アラーム発生から5分以内にAWSインシデントマネージャーと連携し、事前に定義された対応計画に基づいてインシデントを管理することで、復旧を加速します。

AWSで発生するイベントのインシデント管理：AWSサービスイベントに関する最新情報、影響の見通し、および軽減計画の実装に関するガイダンスを提供します。

要害発生頻度の低減：復旧を加速するだけでなく、過去のインシデントから得られた教訓をランブック、可観測性、対応計画の改善に活かすことで、継続的な改善のメカニズムを提供し、障害の可能性を低減します。

どのようにIDRはアプリケーションのレジリエンスを向上するか？

インフラストラクチャの近代化イニシアチブの一環として、この航空会社は複数年にわたるクラウド移行の取り組みを開始しました。このイニシアチブの一環としてクラウドに移行されたアプリケーションの1つが、滑走路状態報告（FICON）アプリケーションでした。FICONは、パイロットと運航計画担当者に滑走路の状態に関する情報を提供します。このアプリケーションの可用性への影響や復旧の遅延は、フライトの遅延を引き起こし、航空会社の運航と乗客に直接的な影響を及ぼします。

FICONは、ほぼゼロの目標復旧時間（RTO）を持つグランドストップアプリケーションです。移行の一環として、この航空会社は、クラウド環境でのアプリケーションの可観測性の設定、重大なインシデントへの迅速な対応、そしてチームの復旧をガイドするためにアプリケーションのコンテキストを理解している専門家へのアクセスが必要でした。

これらのニーズに対応するため、お客様はアプリケーションをAWS Incident Detection and Responseに移行することを決定しました。移行プロセスは、信頼性と運用の優位性についてアプリケーションを評価することから始まりました。AWSの専門家は航空会社のアプリケーションチームと協力して、システムのアプリケーション層とインフラストラクチャ層全体の可観測性を向上させるための主要な性能指標を特定し、インシデント発生時に警告するためのAmazon CloudWatchアラームを作成しました。また、重大なインシデント発生時のエスカレーション用にアプリケーション担当者のリストを含むランブックも作成されました。

AWS Incident Detection and Responseは、可観測性の向上と早期インシデント検知を通じて、FICONアプリケーションの運用効率を向上させました。5分以内の応答時間は、厳格な目標復旧時間（RTO）とデータ復旧時点の目標（RPO）を考慮した航空会社のグランドストップアプリケーションにとって重要でした。AWS Incident Detection and Responseは、重大なインシデントに対する平均対応時間（MTTE）と平均復旧時間（MTTR）を改善しました。

運用の優位性における改善を示す事例として、FICONアプリケーションのAmazon CloudWatchアラームが作動しました。このアラームは、API Gatewayがリクエストを中継してからバックエンドからレスポンスを受信するまでの時間である、Amazon API Gateway統合レイテンシーを監視していました。アラームに応答して自動的にサポートケースが作成され、アラーム作動から2分以内にインシデントマネージャーが対応を開始しました。

インシデントマネージャーは会議ブリッジを開始し、航空会社とAWSチームとの共同トリアージとインシデント解決を促進しました。AWS Lambdaサポートチームが会議セッションに参加し、ログを確認した結果、AWS Lambdaが同時実行制限に達していたことを特定しました。エンジニアは迅速にLambdaの同時実行制限を引き上げて問題を解決しました。統合された監視と自動化された対応ワークフローにより、プロアクティブな対応と迅速な問題緩和が可能となりました。インシデント解決後、AWSインシデントマネージャーは、問題の原因と再発防止のための推奨事項を含む事後インシデントレポートを共有しました。推奨事項には、プロビジョニングされた同時実行性の有効化とLambdaの同時実行制限を監視する新しいCloudWatchアラームの作成が含まれていました。チームはまた、検知を改善するためのアラームのしきい値に関する推奨事項を提示し、それに応じてランブックを更新しました。

IDRは実際にどのような対応がなされるか？

以下に示すように、AWS Incident Detection and Responseとの統合設定は、既存のアーキテクチャを変更する必要がありません。アプリケーションパフォーマンスモニタリング（APM）ツール（Amazon CloudWatch、Datadog、New Relicなど）からアラームを取り込むために、AWS Health Service Linked Roleへのアクセスを提供するだけで、AWS Incident Detection and Responseとの統合を簡単に設定できます。

アラームが発生した場合、AWS Incident Detection and Responseの自動化システムはAmazon Event Bridgeを通じてアラームを取り込み、AWSインシデントマネージャーとの連絡のために、お客様のアカウントでサポートケースを作成します。また、AWSサービスイベントに関する通知のため、お客様のアカウントのAWS Personal Health Dashboardも更新されます。AWS Incident Detection and Responseは、サードパーティのAPMから直接、またはWebhookを介してイベントの取り込みをサポートしています。AWS Incident Detection and Responseでワークロードを設定する方法の詳細については、AWS Incident Detection and ResponseユーザーガイドのGetting Startedセクションを参照してください。

AWS Incident Detection and Responseとシステムの連携

おわりに

AWS Incident Detection and Responseは、チケット発券、手荷物取扱い、航空運航、空港運営、乗務員管理などの分野における重要なアプリケーションのインシデント管理プロセスを改善することができます。厳格なRPO（目標復旧時点）とRTO（目標復旧時間）の要件を持つアプリケーションは、このプロアクティブな対応から恩恵を受けることができます。ミッションクリティカルなシステムに影響を与える問題を適時に特定し、修復することで、運用の中断とお客様への影響を最小限に抑えることができます。

詳細については、AWS Incident Detection and Responseユーザーガイドをご覧いただくか、AWSのアカウント担当者にお問い合わせください。

翻訳はソリューションアーキテクトの矢形が担当しました。原文はこちらです。

Naseer Sayyad

Naseer Sayyadは、Amazon Web Servicesのシニアテクニカルアカウントマネージャーです。NaseerはAWSのエンタープライズ顧客と協力し、クラウド変革の過程で成功を収められるよう支援しています。クラウドコンピューティングと自動化に情熱を注いでおり、仕事以外では旅行と写真撮影を楽しんでいます。

Neel Sendas

Neel Sendasは、Amazon Web Servicesのプリンシパルテクニカルアカウントマネージャーです。Neelは企業のお客様と協力して、ビジネス目標を達成するためのクラウドアプリケーションの設計、導入、スケーリングを支援しています。また、機械学習にも熱心で、製造業や物流業界向けの様々な機械学習のユースケースに取り組んできました。顧客支援以外の時間には、ゴルフとサルサダンスを楽しんでいます。

Temitope Baiyewu

Temitope Baiyewuは、Amazon Web Servicesのシニアプロダクトマネージャーです。TemiはAWS Incident Detection and Responseの製品開発を主導しており、顧客がAWS上で重要なワークロードをより効率的に運用できるよう支援することに情熱を注いでいます。Temiは読書が大好きで、チェルシーFCの熱烈なファンです。

Amazon Web Services ブログ

アプリケーションのレジリエンスを向上するための AWS Incident Detection and Response

AWS incident Detection and Responseとは？

どのようにIDRはアプリケーションのレジリエンスを向上するか？

IDRは実際にどのような対応がなされるか？

おわりに

Naseer Sayyad

Neel Sendas

Temitope Baiyewu

お役立ちリンク

フォローお願いいたします

学ぶ

リソース

デベロッパー

ヘルプ