Amazon Web Services ブログ

【開催報告】AWS Resilience Day in Tokyo を開催しました!!(2024年10月24日)

近年、ミッションクリティカルなワークロードでの AWS 活用が進むなか、レジリエンシーの確保は業務継続性、および、お客様体験の強化には必須となってきています。例えば、2023年4月には金融庁から「オペレーショナル・レジリエンス確保に向けた基本的な考え方」が公表され、「オペレーショナル・レジリエンス(業務の強靭性・復旧力)を確保することは国際的にも重要視されている」と記載されており、レジリエンスに対する関心は高まってきています。

AWS は目的別のレジリエンスサービス、統合型のレジリエンス機能、専門家によるガイダンスで構成された包括的なポートフォリオを通じて、お客様が可用性の高いアプリケーションをより容易に設計、構築、実行できるようにしています。

AWS Resilience Day はワークロードの回復力向上に役立つアーキテクチャのベストプラクティスや AWS サービスについて学べる対面イベントです。レジリエンスについて学ぶ座学と、ハンズオンを含む実践的なワークショップを通して、災害復旧、高可用性ワークロードの設計、エラー修正プロセスの実装について学んで頂けます。2023年に初めてミュンヘンで開催されてからこれまで世界13都市へ展開、今回ついに東京での開催となりました。


清々しい秋晴れの下、早朝から 70 名のお客様に目黒オフィスまで足を運んでいただきました。首都圏だけでなく、関西や九州からのご参加も!遠くからお越し頂き本当にありがとうございました!!

アジェンダ

このセミナーは座学とハンズオンを交互に織り交ぜながら進めていきます。

形式 タイトル スピーカー 資料
オープニング 深森 広英※1
座学 AWSにおけるレジリエンス入門 Hyuntae Park※6 Download
座学 レジリエンスの目標を設定する 猪又 赳彦※5 Download
👋 ハンズオン AWS Resilience Hubを活用したRPO/RTOの設定 川端 将宏※3
座学 レジリエンスの設計と実装 松本 耕一朗※2 Download
👋 ハンズオン 高可用性のための設計と実装 深森 広英※1
👋 ハンズオン ディザスタリカバリに備えた設計と実装 安藤 麻衣※2
座学 レジリエンスの評価とテスト 河角 修※2 Download
座学 レジリエンスの運用 新谷 歩生※1 Download
👋 ハンズオン AWS Fault Injection Serviceを用いたレジリエンス評価とテスト 三好 史隆※2
座学 インシデントへの対応と学習 中戸川 浩※6 Download
👋 ハンズオン インシデント対応からの学習 石倉 徹※4

※1. Sr.Solutions Architect, ※2. Solutions Architect, ※3. Partner Sales Solutions Architect, ※4. Partner Solutions Architect, ※5. Sr. Technical Account Manager, ※6. Technical Account Manager

オープニング

総合司会の深森よりご挨拶です。本セミナーは、AWS レジリエンスライフサイクルフレームワークの 5 つの主要なステージに沿って進められます。みなさまにレジリエンスの向上に役立つさまざまな戦略、サービス、ツールについての学びを持ち帰って頂きたいという熱い思いをお伝えしました。


深森 広英
Sr. Solutions Architect

AWS におけるレジリエンス入門

Q: 停止しないシステムを構築するにはどうすればよいでしょう?
A: システムは常に故障します。重要なのはシステムに障害が発生したときに何が起こるかです

セッションはこんな問答から始まりました。このセッションではレジリエンスに関する AWS の責任共有モデルに基づき、AWS で耐障害性のあるアーキテクチャを構築し維持するためのコラボレーション、計画、継続的なレジリエンス活動の重要性を説くAWS レジリエンスライフサイクルフレームワークを紹介しました。またサービスオーナーシップモデルや Correction of Error (CoE) processes など AWS 自身がクラウドのレジリエンスを確保するために取り組んでいる活動や文化についても紹介しました。

Hyuntae Park
Technical Account Manager

レジリエンスの目標を設定する

このセッションでは、ビジネスの要求とアプリケーションの回復力要件を一致させることの重要性について紹介しました。

レジリエンシーを考える際にはシステム全体で一つの RTO/RPO 目標を掲げがちですが、収益に直結するクリティカルなシステムと、それ以外の付加的なシステムを同列に扱うことは現実的ではありません。アプリケーションが提供する個々のユーザージャーニーの重要度に合わせたサービスレベル目標を定義し、より重要なものにレジリエンスの取り組みを集中させることの大切さをお伝えしました。このようにレジリエンシーはビジネス要件と密接に関わるため、経営陣を含む主要なステークホルダーの理解と関与を得て進めることが推奨されています。

猪又 赳彦
Sr. Technical Account Manager

👋 AWS Resilience Hub を活用したRPO/RTO の設定

AWS 上で稼働するアプリケーションのレジリエンシーは具体的にどう高めていけばよいでしょうか。ハンズオンでは AWS 上のアプリケーションの回復力を分析、管理、改善できるサービス AWS Resilience Hub の使い方も学びます。

AWS Resilience Hub – 目標 RTO / RPO を入力 まずは AWS Resilience Hub へアプリケーションの目標 RTO/RPO を入力します。

レジリエンスの設計と実装

再び座学セッションです。ここではレジリエンスの設計原則を活用してアーキテクチャとエンジニアリングのベストプラクティスを実装する方法について紹介しました。

セルアーキテクチャ、コントロールプレーンとデータプレーン、サーキットブレーカー、障害分離、静的安定性、グレースフルデグラデーション、バイモーダル動作など様々な例を挙げながら回復力のあるアーキテクチャやソフトウェアデザインパターンをご紹介しました。実開発でのトレードオフなど講師の経験を交えた Dive Deep した内容でした。

松本 耕一朗
Solutions Architect

👋 高可用性とディザスタリカバリのための設計と実装

再びハンズオンです。AWS Resilience Hub を使ってアプリケーションのレジリエンシーを評価します。

AWS Resilience Hub – レジリエンシーの評価結果(改善前) アプリケーションが目標 RTO/RPO を満たしているかどうかの結果が得られました。リージョン障害時の RTO / RPO ともに目標値 (2hour/1hour) を満たしていません (Unrecoverable)。
AWS Resilience Hub – レジリエンシーの評価結果(改善後) AWS Resilience Hub が推奨する改善案に沿ってアプリケーションを修正し、目標 RTO / RPO を満たすようになったことを確認できました。

レジリエンスの評価とテスト

設計と実装の次は、評価とテストです。このセッションではカオスエンジニアリングを使用してシステムの弱点、脆弱性、障害モードを特定する方法について紹介しました。

システムが分散して大規模になるにつれ、起こりうる障害を予測しづらくなってきます。カオスエンジニアリングとテストは、予測不可能な状況においても回復力を発揮するアプリケーションを構築するためには欠かせない手法です。本番環境で問題が起きる前にアプリケーションをさまざまな障害シナリオにさらし、潜在的な弱点を発見する方法やその重要性について理解を深めました。

河角 修
Solutions Architect

レジリエンスの運用

評価とテストを終えたら運用です。このセッションではシステムの健全性を効果的に監視し、プロセスを自動化する方法について紹介しました。

システムの健全性を担保するにはメトリクスを監視しますが、過剰にデータを集めてしまうと余計なコストがかかったり多すぎるアラートに圧倒されたりして、検知や復旧の遅れを生んでしまい返って逆効果です。ビジネス目標を踏まえ、アプリケーションにとって重要な測定項目を見つけることが大切であることをお伝えしました。

新谷 歩生
Sr. Solutions Architect

👋 AWS Fault Injection Service を用いたレジリエンス評価とテスト

AWS Resilience Hub はレジリエンシーの目標 RTO / RPO を満たすアーキテクチャを提案するだけでなく、障害注入実験を行うための AWS CloudFormation テンプレートも提供します。これには AWS Resilience Hub の一機能である AWS Fault Injection Service が利用されます。

AWS Resilience Hub – 障害注入実験のテンプレート

AWS CloudWatch Dashboard – バックエンドの応答状況

AWS Fault Injection Service が推奨するテンプレートから必要なものを選択し、“RDS インスタンスがフェイルオーバーした場合にも、フロントエンドとバックエンドは 2 分以上オフラインにならない” という仮説を検証しました。

インシデントへの対応と学習

インシデント発生後にはその分析を行いますが、最も重要なことは根本原因に立ち返りアクション項目を関係者で共有することです。このセッションでは根本原因を分析し、学んだ教訓を組織全体で共有して、同様のインシデントが将来的に発生しないようにすることの重要性について理解を深めました。

そしてレジリエンスに関する活動を継続することの重要性をお伝えしました。人やテクノロジーは常に変化するため、レジリエンスもそれらに適応させていく必要があります。

中戸川 浩
Technical Account Manager

👋 インシデント対応からの学習

最後のハンズオン演習では、AWS Resilience Hub でアプリケーションを再評価し、ベンチマークに対して継続的に評価する方法を学びました。

AWS Resilience Hub – 耐障害性スコア

RTO/RPO の目標値に対する達成状況や、オペレーションに関する推奨事項の実装状況を基にして AWS Resilience Hub が算出する耐障害性スコアを確認しました。

ハンズオンは以上です。AWS Resilience Hub を利用して レジリエンスの目標設定、設計と実装、評価とテスト、運用、学習のレジリエンスライフサイクルフレームワークを体感して頂きました。ハンズオンは 川端 将宏、深森 広英、安藤 麻衣、三好 史隆、石倉 徹 の 5 名が担当させて頂きました。

ハンズオンで学んだ AWS Resilience Hub については AWS Black Belt Online Seminar でもご紹介しております。こちらも是非ご参照ください。

AWS Resilience Hub Part1 基礎編 PDF / 動画
AWS Resilience Hub Part2 実践編 PDF / 動画

おわりに

本記事では東京で開催した AWS Resilience Day in Tokyo についてレポートしました。参加頂いたお客様からは「レジリエンスを高めるには技術だけでなく人やプロセスも極めて重要だと改めて気付いた」「AWS Resilience Hub や AWS Fault Injection Service などの具体的な使い方を学ぶ良い機会になった」などのご評価を頂きました。ご参加頂いたみなさま、本当にありがとうございました。頂いたフィードバックをもとにこれからも改善を重ねて参ります。本日の内容が少しでも皆様の業務のお役に立てば幸いです。

著者について

川端 将宏 (Kawabata Masahiro)
Partner Sales Solutions Architect
パートナー様のお客様担当チームをご支援するソリューションアーキテクトとして、主に金融サービス事業領域を担当しています。パートナー様のAWS案件創出支援や案件推進、技術支援、AWSスキル向上施策実施などを通じて、AWSのファンになっていただけるよう活動しています。
三好 史隆 (Fumitaka Miyoshi)
Solutions Architect
ソリューションアーキテクトとして主に製造業のお客様を担当しています。システム構築のためのアーキテクチャ提案や人材育成のためのワークショップ提供など、技術的な面からお客様のクラウド活用をご支援しています。