Amazon Web Services ブログ

AWS re:Invent 2025 AWS Cloud Resilience セッションガイド

本記事は 2025 年 10 月 15 日に公開された “Guide to AWS Cloud Resilience sessions at re:Invent 2025” を翻訳したものです。

組織に損失をもたらすダウンタイムを防ぐ方法を学ぶために AWS re:Invent に参加される方は、重要なアプリケーションのレジリエンスを向上させるのに役立つ、150 以上のブレイクアウトセッション、ワークショップ、チョークトーク、ビルダーセッション、コードトークに参加できます。セッションを確認するには、re:Invent 2025 イベントカタログを開き Area of Interest で Resilience にチェックを入れフィルタリングします。この投稿では、これらの必見のセッションをいくつか紹介します。ビジネスに最も関連性の高いセッションを選択できるよう、推奨事項を 3 つのトピックに分けています。1/ AWS のイノベーションとベストプラクティス、2/ レジリエントなアプリケーションの構築と運用、3/ レジリエンス文化の醸成です。受付が開始されています。お早めにご予約ください。

AWS のイノベーションとベストプラクティス

お客様のアプリケーションに最も信頼性の高いクラウドインフラストラクチャを提供するため、AWS にて行っている最先端のイノベーションをご紹介します。アベイラビリティーゾーン (AZ) やリージョンなどの AWS の 障害分離境界について学び、それらを活用してアプリケーションのレジリエンスを向上させる方法を習得できます。また、20 年以上にわたって大規模な高可用性サービスを運用してきた経験から得られた、実証済みの運用プラクティスと重要な教訓を共有します。

ブレイクアウトセッション

From ideas to impact: Architecting with cloud best practices (ARC204)
2025 年は、AWS Well-Architected Framework、Cloud Adoption Framework、AWS Cloud Operating Modelの 10 周年を迎えます。これらの基礎的なフレームワークが、お客様のフィードバック、数千の組織から得られた実践的な知見を通じてどのように進化してきたかを学びます。体系的なガイダンスとして始まったものが、クラウド環境を最適化するための常に進化する知見へと成熟しました。この継続的なフィードバックが、アーキテクチャレビュー、運用、改善活動全体にわたるイノベーションをどのように推進しているかをご覧ください。これらの統合されたベストプラクティスを活用してクラウド変革を加速させるための実践的な戦略を学びます。

Building on AWS resilience: Innovations for critical success (ARC207)
世界経済と重要なインフラストラクチャを支える基幹サービスには、極めて高いレジリエンスが求められます。約 20 年にわたる集中的なイノベーションを通じて AWS は、世界中の重要なワークロードを支える中核的なエンジニアリング手法と運用手法を開発してきました。AWS のアーキテクチャイノベーションと組織的プラクティスが、深刻な障害発生時でもレジリエンスを維持する堅牢なサービスの構築をどのように支援しているかをご紹介します。また、AWS がレジリエンスへの継続的な投資を通じて、政府、経済、重要インフラ全体にわたる基幹サービス提供の基盤をどのように提供しているかを学びます。

チョークトークとコードトーク

Building resilient clients: Architecture patterns from Amazon.com (ARC331)
Amazon.com の大規模な本番環境での経験から得られた、レジリエントなフロントエンドアプリケーションを構築するためのアーキテクチャパターンをご紹介します。Amazon.com が、障害注入テスト、キャッシング戦略、グレースフルデグラデーションパターンを通じて、ピークイベント時の信頼性を維持するためにフロントエンドシステムをどのようにアーキテクチャ設計しているかを学びます。サーキットブレーカー、デプロイメントの安全性、運用上の優秀性のための包括的なモニタリングの実装を探ります。この技術セッションでは、AWS Well-Architected Framework の原則に沿った、スケールする堅牢なクライアントアプリケーションをアーキテクチャ設計するための実践的なパターンを提供します。

Defend against downtime using fault isolation boundaries (COP305)
AWS の障害分離境界に合わせた一般的な障害モードから回復するアプリケーションを構築することで、可用性目標を達成できます。このチョークトークでは、Application Recovery Controller (ARC) を使用して、AWS アベイラビリティーゾーンおよび AWS リージョン内の障害からアプリケーションを回復する方法を共有します。ARC の仕組みと、アーキテクチャに組み込むべき重要なポイントを習得できます。

Resilience testing and AWS Lambda actions under the hood (COP414)
サーバーレステクノロジーの使用が増えるにつれて、レジリエンステスト (カオスエンジニアリング) は、信頼性と可用性の高いアプリケーションを確保するためにますます重要になっています。AWS Lambda ベースのワークロードのレジリエンスをテストするための新機能をデモし、これらの障害がどのように構築され、内部で実行されるかを解説します。また、モダンなサーバーレスアプリケーションに関する顧客経験から得られた貴重な知見も提供いたします。

レジリエントなアプリケーションの構築と運用

シングル AZ、マルチ AZ、マルチリージョンアーキテクチャ全体でアプリケーションのレジリエンスを最大化するための戦略を探ります。自動復旧メカニズムを活用してダウンタイムを最小限に抑える効果的な手法や、障害から迅速に復旧するための戦略をご紹介します。また、アプリケーションが業界標準や規制に準拠するための実践的なガイダンスも提供します。

ブレイクアウトセッション

Building resilient multi-Region applications with Capital One (ARC404)
組織は、大規模なマルチリージョンアプリケーションで予測可能な回復時間を達成し、一貫性を維持することに大きな課題を抱えています。Application Recovery Controller (ARC)、Aurora DSQL、Dynamo DB Multi-Region Strong Consistency を使用して、明確な復旧目標を持つレジリエントなアーキテクチャを作成する方法を学びます。実世界の実装パターンを通じて、ARC Region switchとAWS Fault Injection Service がメンテナンスとテストのアプローチをどのように変革するかをご紹介します。このエキスパートレベルのセッションでは、予測可能な回復と一貫した運用を提供するマルチリージョンアプリケーションを設計するための実践的な戦略を提供します。

Multi-Region disaster recovery & resilience testing (feat. Fidelity) (COP358)
AWS のイノベーションが、エンタープライズ規模の組織のディザスタリカバリ (DR) 戦略をどのように革新しているかをご紹介します。AWS リージョン全体で数千のアプリケーションを管理するには、高度な DR 機能が必要ですが、従来は複雑でリソース集約的なカスタム開発が求められていました。Fidelity が、Amazon Application Recovery Controller の Region switch 機能によるマルチリージョン復旧オーケストレーション、ライブダッシュボード、レポート機能を活用して、8,500 のミッションクリティカルなアプリケーションの DR をどのように変革したかを学びます。さらに、AWS Fault Injection Service と組み合わせることで、Fidelity は現実的な条件下で復旧手順を検証し、DR プランへの信頼性を高めています。AWS が企業のインフラ運用のモダナイゼーション、コンプライアンスの向上、ミッションクリティカルなアプリケーションの事業継続性の強化をどのように実現しているかをご覧ください。

Architecting resilient multicloud operations, feat. Monzo Bank (HMC201)
組織がレジリエンスのニーズに対応するためにマルチクラウド戦略を選択する際、データの一貫性、サービスの分離、長期的なテストと保守といった領域で課題に直面することがよくあります。このセッションでは、運用レジリエンスに対する実用的で効率的なアプローチを提供する戦略的マルチクラウドアーキテクチャを実装した、Monzo Bank のレジリエンスへの取り組みについて学びます。主要な AWS インフラストラクチャと並行して、別のクラウドプロバイダー上で重要な銀行サービスを実行する Monzo の Stand-in Platform について詳しく掘り下げます。サービスの可用性を維持し、データ整合性のトレードオフを管理し、レジリエントなマルチクラウドアーキテクチャを実装するための実践的なパターンを学べます。

Cyber resilience on AWS, designing security and recovery strategies (GBL204)
サイバーレジリエンスとは、サイバー攻撃などの有害なイベントが発生しても、組織が意図した成果を継続的に提供できる能力のことです。サイバーレジリエンスとディザスタリカバリは、インシデント発生後に通常の運用を復旧するための計画と対応を含むという点で共通しています。サイバーレジリエンスは、より広範な戦略の一部としてディザスタリカバリを含んでいます。サイバーレジリエンスを設計する際には、下記の複数の重要なテーマがあります。

保護:システム、ネットワーク、データを保護するために講じる予防的措置
準備:サイバーインシデントに効果的に対応し、復旧できるよう組織を準備する活動
復旧:サイバーインシデント発生後、システム、ネットワーク、データを通常の状態に復元するための対応

チョークトークとビルダーズセッション

Architecting multi-Region expansion for mission-critical workloads (ARC322)
ミッションクリティカルなアプリケーションを複数の AWS リージョンに拡張する際は、特に厳格な SLA 要件がある場合、綿密なアーキテクチャ計画が必要です。このチョークトークでは、マルチリージョン拡張における主要な設計上の考慮事項を探ります:サービスの可用性評価、安全なリージョン間接続の実装、信頼性の高い運用の確保。シナリオベースの共同演習を通じて、評価方法、ネットワークパターン、運用手順をマッピングする方法を学びます。ミッションクリティカルなワークロードの高可用性とパフォーマンスを維持するリージョン拡張プロジェクトのための、実践的なアーキテクチャ手法を習得できます。

Cell-based architectures: From connected vehicles to enterprise systems (ARC327)
コネクテッドビークルプラットフォームは、セルベースアーキテクチャが大量のデバイスアクセス、データ急増、レイテンシーに敏感なワークロードの課題をどのように解決するかを示しています。このアーキテクチャパターンが自動車分野を超えて、スマートカメラ、監視システム、ソーラー管理、SaaSプラットフォームをどのように変革するかを学びます。AWS IoT Core、Amazon MSK、Amazon EKS with Graviton、Amazon Aurora、Amazon Memory DB for Redis を使用した実践的な例を通じて、障害分離、スケーラブルなデプロイ、ローカライズされたエッジサービスの実装方法をご紹介します。このセッションでは、多様な業界にわたって大規模なパフォーマンスを維持するレジリエントなコネクテッドシステムを構築するためのアーキテクチャパターンを提供します。

A practical guide for meeting regulatory resilience requirements (COP210)
世界中の組織は、DORA、NIS2、RegSCI などの規制要件を満たすために、運用レジリエンスを実証する必要があります。これらの規制は、組織が中断を防ぎ事業継続性を維持するためのインシデント検知とディザスタリカバリ計画を備えていることを保証することを目的としています。このチョークトークでは、金融サービスやヘルスケアなどの規制業界において、AWS サービスを使用してコンプライアンスを評価し証明する方法を学びます。D-CAT ツール、AWS Fault Injection Service の実験レポート、AWS Resilience Hub のレジリエンス評価、Amazon Application Recovery Controller のライブダッシュボードの実践的な活用方法を探り、規制への準備状況を評価し文書化する方法をご紹介します。

AWS disaster recovery strategies (COP302)
このディザスタリカバリ (DR) ビルダーズセッションで、予期せぬ事態に備えましょう。ビジネスの復旧目標に沿った DR 戦略を実装するアプリケーションに取り組みます。バックアップと復元、パイロットライト、ウォームスタンバイ、または AWS Elastic Disaster Recovery (AWS DRS)、Amazon Aurora、Amazon S3、Amazon EC2、AWS CloudFront、AWS DRS、AWS Fault Injection Service、AWS Backup などのアプローチ、サービスを取り上げます。また、選択したアプローチをテストし検証する方法も探ります。ビジネスに適した DR 戦略を構築するための実践的な知見を習得できます。

Financial services multi-Region design patterns and best practices (IND317)
AWS 上で金融サービス向けのレジリエントなマルチリージョンデプロイメントを構築するための実証済みのアーキテクチャパターンと設計原則をご紹介します。Amazon Application Recovery Controller、Amazon Aurora DSQL、Amazon Dynamo DB Multi-Region 強整合性などの専門的な AWS サービスを活用して、堅牢なグローバルソリューションを構築するための実践的な知見を得られます。マルチリージョンデプロイメントに伴うトレードオフを包括的に理解し、組織固有の要件に対して信頼性、パフォーマンス、コストのバランスを取った、情報に基づいたアーキテクチャ上の意思決定を行う能力を習得できます。

ワークショップ

Building and testing resilient multi-AZ applications (ARC304)
レジリエントなマルチ AZ アプリケーションの構築とテストの実践的な経験を獲得できます。包括的なヘルスモニタリングのために、Amazon CloudWatch ダッシュボード、インサイトルール、複合アラームの使用方法を学びます。AWS Fault Injection Service を使用してランダムな障害を注入し、さまざまなシングル AZ 障害をシミュレートする練習を行います。AWS CodeDeploy を使用したゾーンデプロイメントを習得し、現実的な障害シナリオを体験します。Amazon Application Recovery Controller のゾーンシフト機能を活用して、障害から復旧し顧客体験を維持する方法を探ります。このワークショップでは、AWS 上で高可用性システムを設計し運用するための実践的なスキルを提供します。

From downtime to uptime: Mastering application recovery on AWS (ARC307)
AWS 上でアプリケーションのレジリエンスを強化するための、Amazon Application Recovery Controller (ARC) の最新機能を習得します。ハンズオン演習を通じて、自動復旧ワークフローの実装、復旧計画のテスト、大規模な復旧オペレーションの監視方法を学びます。エンタープライズのレジリエンス要件に沿った復旧ソリューションの設計と管理における実践的なスキルを構築します。このワークショップでは、高度な復旧アーキテクチャを通じて事業継続性を確保するための実証済みのパターンを、クラウドアーキテクトと DevOps エンジニアに提供します。

Building resilient architectures with observability (COP408)
重要なシステムに障害が発生すると、ダウンタイム1分毎に金銭的損失と信頼の喪失が発生します。このハンズオンワークショップで、アプリケーションをレジリエントで可観測性の高いシステムに変革しましょう。カオスエンジニアリングを通じてレジリエンスを強化し、AWS Fault Injection Service で障害を注入してアベイラビリティーゾーンの障害、ネットワークの問題、デプロイメントの問題をシミュレートします。Amazon CloudWatch と Amazon Application Recovery Controller を活用して、障害を検知、診断し、自動的に復旧する方法を学びます。実際の条件下でも可観測性とレジリエンスを維持するアプリケーションを構築する実践的な経験を習得できます。

レジリエンス文化の醸成

運用準備レビュー (Operational Readiness Reviews (ORR) )、レジリエンステスト、根本原因分析 (Root Cause Analysis (RCA) ) 、ゲームデイシナリオを通じて、開発サイクルの早い段階でレジリエンスを統合する方法を学びます。金銭的損失を伴うダウンタイムを防ぐのに役立つ、効果的で安全なデプロイメントプラクティスと堅牢なオブザーバビリティ戦略を構築するための技術を探ります。

ブレイクアウトセッション

Mastering Root Cause Analysis: Rebuilding trust after outages (ARC211)
障害の調査は困難ですが、それを顧客に効果的に説明することはさらに大きな課題です。根本原因分析 (Root Cause Analysis (RCA) ) ドキュメントは、理解を示し、責任を明確にし、不足点に対処する計画を提示することで信頼を再構築する唯一の機会となることがよくあります。10 年以上にわたる効果的な RCA 作成の経験から、透明性を保ちながら複雑性、カスタムソフトウェア、社内用語を乗り越えるための実践的な戦略を学びます。ISV や SaaS プロバイダーの方は、何が起こったのか、なぜ起こったのかを説明し、確実な改善計画を示す洞察に富んだ RCA を作成する手法をご紹介します。

The incident is over: Now what? (COP216)
最適な運用プラクティスは、避けられないインシデントへの対処方法と迅速な復旧方法を定義します。では、その後はどうでしょうか?真の根本原因を突き止め、効果的な予防措置の実施を計画するにはどうすればよいでしょうか?すべてのインシデントを組織全体の学習機会に変えるにはどうすればよいでしょうか?責任共有モデルやサードパーティソフトウェアベンダーはどのように関わってくるのでしょうか? 根本原因分析 (Root Cause Analysis) と Correction of Error (COE) に関する私たちの思考モデルと数十年にわたる経験を共有しますので、皆様の組織で効果的なプラクティスを推進できるようになります。

チョークトーク、コードトーク、ビルダーズセッション

Operational excellence: Building resilient systems (ARC316)
このチョークトークでは、運用プラクティスとシステムレジリエンスの重要な関係を探ります。ロギング、ヘルスチェック、デプロイメント戦略などの基本的な要素が、AWS 上のアプリケーションの信頼性にどのように影響するかを検証します。実際のシナリオを通じて、システムの可用性を損なう一般的な運用上の落とし穴を発見し、Well-Architected の原則に沿った実践的な解決策を学びます。アーキテクチャのレジリエンスを強化し、運用上の優秀性を高めるための実証済みのアプローチを学びます。このインタラクティブなセッションでは、堅牢なクラウドシステムを構築し維持するための実践的なパターンを、アーキテクトとオペレーターに提供します。

Agent down! Building unbreakable AI workflows (COP321)
このチョークトークで、カオスエンジニアリング (レジリエンステスト) の原則が自律型 AI エージェントワークフローにどのように適用されるかをご紹介します。AWS Fault Injection Service を使用して、複雑なマルチステップタスクを処理するエージェントベースのシステムをストレステストする方法を学びます。意思決定ループ、タスクの引き継ぎ失敗、リソース調整の崩壊など、エージェント AI 特有の障害モードを特定および軽減する方法をご紹介します。オーケストレーション層、メモリシステム、ツールの相互作用全体でエージェントのレジリエンスを検証する実験を設計する練習をします。自律型 AI ワークフローを構築または維持しているチームに最適なこのチョークトークは、エージェント駆動型アーキテクチャのレジリエンスを向上させるための実践的な技術を提供します。

Streamline operations with automated health monitoring and response (COP343)
AWS 環境が複雑化するにつれて、組織は健全なインフラストラクチャの可視性を維持し、インシデントに対応することに課題を抱えています。このチョークトークでは、AWS Health と Amazon CloudWatch を使用して、包括的なヘルスモニタリングと自動化されたインシデント対応を構築する方法を学びます。Systems Manager Automation を使用した修復の実装、効果的なモニタリングパターンの作成、メトリクスをアクションに変換する実践的な内容を体験できます。クロスアカウントヘルスダッシュボード、インテリジェントなアラート、自動対応ランブックの実践的なアプローチを習得できます。

Downtime prevention with the Resilience Lifecycle Framework (COP357)
ほとんどのシステム障害は人的エラー、コードデプロイメントの問題、システムの設定ミスに起因するため、リスクを事前に軽減し、レジリエンス計画を実践し、運用インシデントの再発を防ぐためのフレームワークを整備することが重要です。このチョークトークでは、長年にわたるお客様や社内チームとの協働に基づき、レジリエンスのベストプラクティスを集約した包括的なアプローチである AWS レジリエンライフサイクルフレームワーク の適用方法を学びます。目標設定、レジリエンスを考慮した設計、レジリエンステスト、運用準備レビュー (Operational Readiness Reviews (ORR) ) の実施、インシデント分析レポートの作成など、重要なワークロードのレジリエンス態勢を強化するための実践的な戦略を習得できます。

Build resilient SaaS: Multi-account resilience testing patterns (ISV404)
エンタープライズ SaaS プロバイダーは、テナント境界を越えて障害が拡散するのを防ぎながら、高可用性を維持するという課題に直面しています。主要な ISV が、AWS Fault Injection Service を使用して、制御されたレジリエンステスト実験を通じてマルチテナントアーキテクチャのレジリエンスを検証する方法を学びます。厳格なテナント分離を維持しながらクロスアカウント障害シナリオをテストする、セキュリティおよび HR テクノロジープロバイダーの実例をご紹介します。顧客の可用性を損なうことなく、SaaS アーキテクチャを強化するレジリエンステストを実装するためのパターンをご紹介します。

ワークショップ

Chaos engineering workshop (COP304)
このワークショップでは、カオスエンジニアリングとも呼ばれるレジリエンス実験を実行するための AWS Fault Injection Service (FIS) を紹介します。障害を注入し、電源中断やリージョン間接続の問題などのテストシナリオを適用して、Amazon EKS、Amazon ECS、AWS Fargate、Amazon EC2、Amazon S3、Amazon RDS などのサービスの動作にどのような影響を与えるかを確認する方法を学びます。また、規制業界でのコンプライアンスに必要な実験レポートの作成方法も学びます。さらに、Amazon CloudWatch、AWS X-Ray、Amazon CloudWatch RUM を使用して、実験から重要なインサイトを得る方法も学びます。

本ブログは Partner Solutions Architect の 石倉 徹が翻訳しました。原文はこちらです。

Vanessa Au

Vanessa Au

Vanessa Auは、AWS のシニアプロダクトマーケティングマネージャーです。Amazon での 8 年以上の経験とワシントン大学でのコミュニケーション学博士号を持ち、インパクトの高いプロダクトローンチの実行と、データとストーリーテリングを活用してお客様が AWS を使用してレジリエントなアプリケーションを構築する方法を紹介することを専門としています。