Amazon Web Services ブログ
AWS Summit Japan 2024 に見る Resilience at AWS
アマゾン ウェブ サービス ジャパン合同会社 ソリューションアーキテクトの 新谷です。2024 年 6 月 20 、21 日に AWS Summit Japan が開催され、 2 日間で 150 以上のセッションと 250 以上のブース展示が行われました。その中には、高い信頼性要件に対し工夫を凝らしながら耐障害性の高いワークロードを構築したお客様事例セッションもありました。また、AWS セッションや AWS Village のブース展示においても、レジリエンスに関するトピックを多数お届けしていました。本ブログでは、AWS Summit Japan 2024 よりレジリエンスに関するセッション、ブースの内容をサマリーでご紹介します。
事例セッションより
日本最大口座数を保有する SBI証券のオンライン取引システムの AWS マイグレーション
株式会社SBI証券/ SBIシンプレクス・ソリューションズ株式会社 様
日本最大の口座数を保有する SBI証券様は、新 NISA やゼロ革命 (取引手数料無料化) により拡大するトランザクションに備えて、 OMS(Order Management System) およびその関連するシステムを AWS へマイグレーションし、ビジネスの急激な拡大に対応可能なプラットフォームと顧客への継続的な安定した環境を提供することを実現されました。 AWS の SA とともに金融のベストプラクティスをリファレンスとした、低遅延かつ高い可用性と高負荷トランザクションによる高いパフォーマンス性能が求められるミッションクリティカルなシステムの移行についてお話頂きました。
Oracle Exadata の RDS for Oracle 移行によるフルクラウド化
auコマース&ライフ株式会社 様
auコマース&ライフ様は au Payマーケットのアプリケーションを AWS 移行するとともにアーキテクチャ刷新を進めていましたが、オンプレミスに残る Oracle Exadata と接続する AWS Direct Connect が単一障害点となっていました。実際にスイッチ故障により長時間停止が発生し、サービス継続性に対するリスクが顕在化したことから、オンプレミスの Oracle Exadata から Amazon RDS for Oracle (Enterprise Edition) への移行を決定しました。移行後は Performance Insights の可視化で性能改善に繋げやすくなった点や、データセンターとの通信レイテンシが低減されお客様体験向上にも繋がった点を効果として挙げています。今後は信頼性とコストのバランスを考慮しながらデータベース含めたマイクロサービス化を推進していくそうです。
AWS セッションより
金融機関様のマルチリージョン事例からクラウドのレジリエンスを紐解く
AWS ソリューションアーキテクト 山北 嶺より、金融機関様のレジリエンス事例と技術的な検討ポイントを解説するセッションをお届けしました。Capital One 様ではビジネスチームが利用者目線で目標とする可用性を検討した上で、カード限度額引き上げ処理には Amazon Aurora グローバルデータベース、カード決済処理には Amazon DynamoDB グローバルテーブルを採用するという要件に合わせたデータストア戦略を選択しています。また、住信SBIネット銀行様は、インターネットバンキングにマルチリージョンアーキテクチャを採用し、Amazon Aurora グローバルデータベースの昇格を含めてリージョン切換えのオペレーションを自動化していることを解説しました。
AWS でレジリエントな分散システムを構築するためのデザインパターン
AWS ソリューションアーキテクト 新谷 歩生より、 AWS 上でレジリエンスを高めるためのアプローチやデザインパターンを解説するセッションをお届けしました。アプリケーションを機能単位で分割することで、障害時の影響範囲を小さくできます。一方で分散システムの複雑性が高くなるため、グレイスフルデグラデーション、リトライとエクスポネンシャルバックオフ、サーキットブレイカー等レジリンスを高める設計がより重要となります。また、ケーススタディとして仮想の EC サイトを例に、分散トランザクションの障害管理パターンである Saga パターン、書き込みと読み込みで個別の信頼性要件に対応するための手法としてイベントソーシングと CQRS パターンを解説しました。
インシデントの影響を封じ込めるクラウドアーキテクチャの実践
AWS ソリューションアーキテクト 奥野 友哉より障害の影響範囲を狭める手法として、セルベースアーキテクチャとシャッフルシャーディングを解説するセッションをお届けしました。セルベースアーキテクチャは、アプリケーションをセル単位で複製し、論理的な境界を作成することによって、障害時の影響を全体の一部に抑える設計手法であり、Amazon EBS 内部や、 Amazon Music でも採用されています。セルルーター、セル、コントロールプレーンという要素で構成され、それぞれの設計ポイントを解説しました。また、レジリエンスを更に高める手法として、クライアントに対して複数のワーカー (シャード) を割り当てるシャッフルシャーディングもご紹介しました。
アーキテクチャ道場 2024!
AWS ソリューションアーキテクトが 2 つのお題に対して、レジリエンスをテーマに設計したアーキテクチャを紹介します。 1 つ目は、 AZ 内で発生するグレー障害 (インフラは正常だが、アプリケーションは正常応答しないようなケース) への対処です。 AZ 隔離を対処の前提とし、 AZ の独立性を高める手法と障害検出方法について解説しました。 2 つ目は、依存性障害 (外部のサードパーティサービスが正常でなくなった場合に障害となるケース)への対処です。アプリケーションとサードパーティサービスの間にプロキシサービスを配置し、負荷の緩和と障害影響の遮断を行う手法を解説しました。どちらの例も障害が発生した場合に、その影響をコントロールするために参考となる手法です。レジリエンス向上に興味のある方はぜひご確認ください。
AWS FIS で始めるChaos Engineering 入門
AWS ソリューションアーキテクト 安藤 麻衣より、ミニステージ にて AWS FIS で始める Chaos Engineering 入門 のプレゼンテーションを行いました。分散システムの信頼性を向上させるカオスエンジニアリングについて、基本的な考え方や手法を解説し、カオスエンジニアリングを始める際に活用できるサービスとして AWS Fault Injection Service を紹介しました。
AWS ブース展示より
AWS Resilience
ブース資料はこちらからダウンロード頂けます。
AWS Resilience ブースでは、障害注入と Resilience (回復力) の確認をテーマにデモを実施しました。マルチリージョンで構成された、ミッションクリティカルな株価サービスをに対して、AWS Fault Injection Service (FIS) で障害を注入し、ワークロードの変化と回復力の確認を行うデモを実施しました。具体的には、 FIS を通じて、リージョン障害を想定した障害を注入し、障害が発生した際の影響や、 DNS フェイルオーバーによる切り替わり、自動復旧した様子をワークロードのモニターを通じて確認いただきました。デモを通して、 Resilience (回復力)とモニタリングの重要性についてご紹介しました。
金融業務を支えるプラットフォーム ~最新事例~
ブース資料はこちらからダウンロード頂けます。
こちらのブースでは、⾦融インダストリーの⾼信頼性を担保するフレームワーク「⾦融リファレンスアーキテクチャ⽇本版」の最新アップデートをご紹介しました。来場者様向けの体験型のデモとして、ブースに設置された大きなボタンを押すと銀行アプリケーションが東京リージョンから大阪リージョンに数分で自動で切り替わるものをご提供し、多くのお客様に興味をもってマルチリージョンを体験して頂けました。このデモには Fault Injection Service による故障注入や、 AWS Resilience Hub によるアプリケーション回復力の自動評価も含まれます。 AWS が提供するお客様参加型のイベント 「FSI Resiliency Quest」 GameDay についてもご紹介し、ゲーム形式でレジリエンスを学ぶ機会として多くの来場者様から開催のご要望を頂きました。
Chaos Kitty で楽しくインシデント対応ゲームをしよう!
ブース資料はこちらからダウンロード頂けます。
Chaos Kitty は、 AWS のアーキテクチャを物理的に表現し、楽しみながら障害対応の体験学習ができるソリューションです。 Web 3 層 アーキテクチャを IoT 電球の色で示し、正常時は緑、異常時は赤に変わる仕組みとなっています。AWS SUMMIT Japan 2024 では、Amazon CloudWatch ダッシュボードでリソースの稼働状況やリクエスト状況を把握しながら実際にアプリケーションの障害と復旧を体感頂くゲームをご提供しました。
まとめ
レジリエンスに関する様々な事例が多くのセッションとブースを通じてお届けできた AWS Summit Japan 2024 でした。ビジネスや社会へのインパクトの大きいワークロードでクラウド活用が進む中で、年々レジリエンスへの注目度が高まっていることが感じられます。ミッションクリティカルなシステムや高い可用性要件が求められるシステムのクラウド移行を検討頂いている皆様に少しでも参考になれば幸いです。
著者
石倉 徹
パートナー技術統括本部 第三技術部 パートナーソリューションアーキテクト
深森 広英
グローバルフィナンシャルサービス シニアソリューションアーキテクト
新谷 歩生
技術統括本部 ストラテジックインダストリー技術本部 通信グループ シニアソリューションアーキテクト