生成 AI を活用した SRE レジリエンスジャーニーを支援する次世代 AWS Resilience Hub のご紹介

2026 年 5 月 28 日、各種機能を大幅に強化した次世代の AWS Resilience Hub を発表いたしました。これにより、新しいアプリケーションモデル、依存関係の検出・評価、生成 AI を活用した障害モード分析、モジュール型レジリエンスポリシー、組織全体のレポート機能を統合し、包括的な体験を実現します。

数百単位のアプリケーションを運用している組織はいずれも、可用性が最重要課題である一方で、レジリエンス目標の設定、進捗状況の測定、ポートフォリオ全体でのコンプライアンス証明を行う一貫した方法がないという、共通の課題を抱えています。チームごとに採用している基準やツールが異なるため、アプリケーションが実際に期待どおりの水準を満たしているかどうかについて情報共有に苦労しています。

次世代の AWS Resilience Hub はこうした状況を打破します。サイト信頼性エンジニア (SRE) と開発チームがレジリエンスポリシーに関する要件への認識を合わせ、アプリケーションチームがその要件を達成できるよう支援するとともに、テストによってコンプライアンスを証明できるようにします。AWS Organizations との連携により、チームはレジリエンスの大規模な評価、障害モードの特定、隠れた依存関係の検出、企業全体にわたる進捗状況のレポート作成が可能になりました。

次世代の Resilience Hub は企業によるレジリエンス向上の取り組みを段階的に支援するため、以下の概念を取り入れています。

レジリエンスポリシー: モジュラー型の組み合わせ可能な要件により、レジリエンスに関する要件を設定できます。単一の固定的なポリシーの種類を指定するのではなく、サービスレベル目標 (SLO)、マルチ AZ やマルチリージョンのディザスタリカバリ、データ復旧要件など、アプリケーションにとって重要な要件を選択してポリシーを構築できます。
ビジネスレベルの把握: ビジネス成果に直結する重要なエンドユーザーパスを通じて、新しいアプリケーションモデリングを使用できます。システムはビジネスアプリケーションを表し、ユーザージャーニーは重要なビジネスパスを示します。また、サービスは AWS リソース、コード、オブザーバビリティに関する要素で構成されるデプロイ可能な単位です。Resilience Hub はそれらを自動的に検出し、リソースの接続関係を示すトポロジにマッピングします。
AI による障害モード評価: 生成 AI を活用した評価を実行し、自社定義のレジリエンスポリシー、AWS Well-Architected ベストプラクティス、AWS Resilience Analysis Framework に照らしてサービスを分析できます。この評価を通じて潜在的な障害モードを特定し、実行可能な推奨事項を得ることができます。
依存関係の検出・評価: サービスが依存している AWS サービス、内部エンドポイント、サードパーティのエンドポイントを自動的に検出できます。依存関係評価では DNS クエリログ分析を活用し、予期しないクロスリージョン呼び出しや重大なサードパーティ依存関係など、見落としがちな依存関係を特定できます。

次世代 AWS Resilience Hub の活用例
まず、レジリエンスポリシーを設定し、最初のシステムとサービスをセットアップします。その後、障害モード評価を実行して結果を確認し、検出結果に基づいて対応を行います。

開始する前に、Invoker IAM ロールを設定する必要があります。このロールにより、Resilience Hub に AWS リソース、クロスアカウントロール (AWS Organizations を使用しない場合)、またはサービスリンクロール (SLR) (AWS Organizations を使用する場合) への読み取り専用アクセス権限が付与されます。また、Resilience Hub は AWS Organizations と統合されており、単一の委任管理者アカウントから組織全体のレジリエンスを管理できます。これにより、企業全体のレジリエンス体制を評価するために個々のアカウントにログインする必要がなくなります。詳細は、AWS Resilience Hub ユーザーガイドの「前提条件の詳細」を参照してください。

レジリエンスポリシーを設定するには、AWS Resilience Hub コンソールの [ポリシー] メニューで [ポリシーを作成する] を選択します。ポリシー名と説明を入力し、レジリエンス要件を選択します。たとえば、金融アプリケーションで使用されるマルチリージョンのディザスタリカバリ用に再利用可能なポリシーを作成できます (例: 99.95% の可用性 SLO、15 分の RTO、マルチリージョンのディザスタリカバリにおける 5 分の RPO、RTO と RPO の要件に沿ったディザスタリカバリアプローチ)。

データリカバリ要件を選択した場合は、このポリシーに関連付けられたサービスごとに、バックアップから復元する際のデータリカバリ時間目標を設定できます。

ビジネスアプリケーションを表す最初のシステムを作成するには、[システム] メニューの [システムを作成する] を選択します。システムには、AWS Organizations アカウントアクセスを有効にできます (任意)。

これで、特定のマイクロサービスなど、デプロイ可能なユニットを表すサービスを作成し、それをシステムに関連付けるとともに、Resilience Hub がリソースを検出する場所を指定できます。サービス名 (例: stock-exchange-service) を入力し、レジリエンスポリシーと Invoker AWS IAM ロール名を選択します。サービスリージョンのほか、リソースタグ、AWS CloudFormation スタック、Terraform ステートファイルの場所、Amazon EKS のクラスターと名前空間などのサービスリソースを選択できます。

このサービスに対する依存関係検出を有効にすると、AWS はサービス内のリソースに関連付けられた VPC の VPC クエリログを分析します。この機能は、サービス詳細ページの依存関係検出設定からいつでも無効にできます。

これで、サービスの作成が完了し、ポリシーが適用された状態で、最初の評価を実行できます。サービスページで [障害モード評価を実行する] を選択し、評価が完了するまで待ちます。

評価中、Resilience Hub は Invoker ロールを引き受け、設定された入力ソースからリソースを読み取り、親子関係を特定し、アプリケーショントポロジサービスにクエリを実行してリソース間の接続関係を示し、データフロー、包含関係、権限を示すトポロジを構築します。

[サービストポロジ] を選択すると、グラフ、表、JSON 形式でサービスリソースをサービス機能別に表示できます。

[障害モードガイダンス] を選択すると、障害モード評価の実行中にエージェントに指示を与えるためのアサーションを追加できます。アサーションはエージェントが生成することも、ユーザーが追加することもできます。既存のアサーションを修正して、評価の精度を向上させることが可能です。

評価が完了すると、サービスページの [評価] タブで検出結果と推奨事項を確認できます。各検出結果からは、障害モードの内容と、それがアーキテクチャにとって重要な理由、修正方法、関連するポリシー要件を把握できます。

推奨事項を実装する場合は [解決済みとしてマークする] を選択します。検出結果がユースケースに当てはまらない場合は、[無関係としてマークする] を選択することもできます。

Resilience Hub をすでに導入済みの場合は、Resilience Hub の移行 API を使用して、既存のアプリケーションを簡単に移行できます。移行 API を使用することで、既存の評価ポリシーを新しいレジリエンスポリシーに変換し、既存のアプリケーションを新しいモデルにマッピングできます。たとえば、複数の関連アプリケーションを、複数のサービスを備えた単一のシステムにマッピングできます。

新機能の詳細は、AWS Resilience Hub ユーザーガイドをご確認ください。

今すぐご利用いただけます
このたび、Resilience Hub が利用可能な AWS 商用リージョンで、次世代 AWS Resilience Hub の一般提供を開始しました。リージョンごとの提供状況や今後のロードマップについては、「AWS Capabilities by Region」をご確認ください。

Resilience Hub は、新しいサービスベースの料金モデルを採用しています。料金には、サービスごとに月 2 回の障害モード評価と、オプションの自動依存関係評価が含まれます。AWS Resilience Hub は無料でお試しいただけます。料金の詳細は、AWS Resilience Hub 料金ページをご確認ください。

Resilience Hub コンソールで新しい AWS Resilience Hub をお試しいただき、AWS re:Post for Resilience Hub または普段ご利用の AWS サポート窓口にフィードバックをお寄せください。

– Channy

原文はこちらです。

Amazon Web Services ブログ

生成 AI を活用した SRE レジリエンスジャーニーを支援する次世代 AWS Resilience Hub のご紹介

お役立ちリンク

フォローお願いいたします

学ぶ

リソース

デベロッパー

ヘルプ