Amazon Web Services ブログ

【開催報告】アップデート紹介とちょっぴり DiveDeep する AWS の時間 第三十六回 (11/16)

みなさんこんにちは!
アマゾンウェブサービスジャパン合同会社 ソリューションアーキテクトの守田です。

2023 年 11 月 16 日に「第三十六回 アップデート紹介とちょっぴり DiveDeep する AWS の時間」をオンラインで開催しました。本イベントは、AWS の数あるアップデートの中から「すぐ使える、運用に役立つ、あったらいいなと思ってた、おもしろい、重要」なものをピックアップし、ちょっぴり DiveDeep してカジュアルな雰囲気でお伝えするイベントです。

今回は「Disaster Recovery (DR) 編」ということで、実際に AWS での DR を設計・運用されているお客様から事例やサービスの機能についてご紹介頂きました。今回も非常に多くの方にご参加頂きました。ご参加いただいた皆様、誠にありがとうございました。

実施内容

今回は 5 分間のアップデート紹介の後、ゲストスピーカーとして株式会社マーズフラッグの佐々木様、エムオーテックス株式会社の立古様、株式会社 Works Human Intelligence の兒玉様、株式会社ブイキューブの岩上様、中尾様から、実際に DR を導入されることになったきっかけや、まず最初に取り組まれたこと、現在どのように運用されているのかといった事例について発表して頂きました。合計 1 時間半の中で盛りだくさんの内容でお送りしました。

本記事の中に資料や動画のリンクを記載しておりますので、ぜひご活用ください!

当日参加したメンバー

アジェンダ

今月のお勧め 5 分間アップデート (5 分)
スピーカー:アマゾン ウェブ サービス ジャパン合同会社 ソリューションアーキテクト 後藤 健汰
今月の AWS のサービスアップデートを 5 分でご紹介しました。多くのアップデートの中から 4 つをピックアップしました。

AWS の新着情報については 公式ページ のほか、毎週のアップデート情報をまとめて発信している週刊 AWS を合わせてご覧頂くことがオススメです!

BCP の改善へ向けた可用性向上 ~Amazon RDS 周りを中心に~ ( 15 分)
スピーカー : 株式会社マーズフラッグ サービスプラットフォーム部 佐々木 崇之様

マーズフラッグが長年にわたり提供するサイト内検索サービス「MARS FINDER」を、顧客ニーズに応じ柔軟に機能の組み合わせが可能となるようプラグイン化を推進し「MARS PLATFORM」としてフルリニューアルを行っています。併せて当社プラットフォーム全体を再設計し可用性の向上と BCP の改善に取り組んでいます。このうち Amazon RDS の可用性向上を中心とした事例を交えて紹介します。

ある日「DR やって?」と言われたら – 開発・運用現場が始める DR の第一歩 ( 15 分)
スピーカー : エムオーテックス株式会社 開発本部 サービス開発 1 部 サービス開発 1 課 SRE グループ 立古 佳大 様

昨今、事業継続計画 (BCP) の重要性が叫ばれるにつれ、クラウド環境に対しても DR 対応の要求が強まっています。一方で、DR の対応事項はサービス設計やビジネスの形態に依存する部分が多く、その具体的な要件定義は困難を極めます。本セッションでは、DR への取り組みに関わることとなった開発・運用担当者の視点で、DR の要件を明確化し、対応を習慣付けるための第一歩としてどのようなアプローチが可能か、クラウドサービスを長年に渡り多数のユーザーへ提供し続けてきた当社の経験も踏まえご紹介いたします。

DR 対策としてのマルチリージョン対応について ( 15 分)
スピーカー : 株式会社 Works Human Intelligence Engineer 兒玉 拓也 様

東京リージョンが使用できない事態を想定した Pilot Light をベースにした DR 対策をご紹介します。Pilot Light ベースを選択した理由や、障害発生時のフェイルオーバーやフェイルバックの定義決めから BCP テストの実施計画などの運用的な話から、対応内容の Amazon DynamoDB や AWS Key Management Service といった利用する AWS サービスにおいて DR のために実施した技術的な対応内容についてお伝えします。

『バーチャル株主総会』における DR 環境の導入及び運用事例 ( 15 分)
スピーカー : 株式会社ブイキューブ 技術本部 新規開発グループ インフラチーム 岩上 蘭 様、開発チーム 中尾 真夕 様

オンライン株主総会システム『バーチャル株主総会』サービスは、開催の時間帯においてピンポイントで、万が一が許されない、より高い品質が求められています。従来の Availability Zone 型の冗長性をさらに高めるべく、Region 型の冗長性の追加を DR 対策として行いました。今回はその実現方法と、そこでの苦労した点や AWS を利用していてよかったなと思う点、導入から一定期間経過してからの運用実例について、お話させていただきます。

当日の様子

当日の内容を抜粋してご紹介します。

BCP の改善へ向けた可用性向上 ~Amazon RDS 周りを中心に~
[ 資料 動画 ]

最初のセッションは株式会社マーズフラッグ 佐々木 崇之様より、BCP の改善に向けての可用性の向上に関する取り組みについて、Amazon RDS を中心にご紹介頂きました。株式会社マーズフラッグ様は、オンプレミスで運用されていたプラットフォームを AWS 上の Amazon EC2を中心とした構成に移行、その後 AWS 上のマネージドサービスを利用する構成にリニューアルされた、という変遷をご経験されています。本セッションでは、「オンプレ期」「AWS への移行期」「フルリニューアル期」の 3 つのフェーズに分け、それぞれのフェーズでの RDB の可用性向上の取り組みに関してご紹介頂きました。「AWS への移行期」では、「オンプレ期」で悩まれていたハードウェアの故障からは解放されたものの、AZ 障害への耐性がない、リカバリ手順が手動である、故障時のダウンタイムが 30 分程度発生すること等を課題とされていました。「フルリニューアル期」ではデータベースを Amazon RDS の マルチ AZ 構成に移行され、自動でのリカバリが可能となり、故障時のダウンタイムも 60 秒程度と大幅に削減されました。Amazon RDS のマルチ AZ 配置導入の効果について、可用性の向上のみならず、より生産性のあるタスクに費やすことのできるリソースの増加、障害に関する精神的なストレスからの解放、といった利点についてお話し頂きました。特にリレーショナルデータベースに関して可用性を向上したい方や、Amazon RDS のマルチ AZ 配置を利用した障害対策の実際の効果を知りたい方々にぜひご覧頂きたい内容です。


ある日「DR やって?」と言われたら – 開発・運用現場が始める DR の第一歩
[ 資料 動画 ]

2 つ目のセッションでは、エムオーテックス株式会社 立古 佳大様より、開発・運用部門の方々が DR を始める際の第一歩としての DR 対策の具体化、施策の実施、DR の制定後の動きについてご紹介頂きました。 DR 対策の具体化に関しては、プロダクトの特性を踏まえて SLO、RTO、RPO 等の値をゴールとして定めることで、ステークホルダーから具体的な要求を引き出すことが可能です。ゴールの具体化や運用への落とし込みで煮詰まった際には、外部のベンチマークとして Amazon Trusted Advisorの DR に関する推奨事項や、外部のセキュリティ認証規格 (AWS ではAWS Foudational Technical Reviewで確認可能 ) を活用する方法をご紹介頂きました。次に具体的な施策の実施に関して、各サービスのユーザーの責任範囲に応じた DR の対応策が必要であること、手動での対応が必要であるケースを洗い出して手順を定めることについて具体例を交えてお話し頂きました。障害対策だけを意識してサービスを選定しているわけではないため、DR 側の要求事項を開発以前から開発メンバーに伝えておくことも、サービス選定においては重要な点となります。最後に策定後の定期的な訓練や見直し実施についてご紹介頂きました。DR を始めようと思っているが何から始めるべきか分からないというお悩みを抱えているお客様や、今後 DR を始める可能性がある開発・運用部門の方にぜひご覧頂きたい内容です。


DR 対策としてのマルチリージョン対応について
[ 資料 動画 ]

3 つ目のセッションでは、株式会社 Works Human Intelligence Engineer 兒玉 拓也様より、マルチリージョン構成の DR 対策における事前検討から運用までの流れを、実際に設計されたアーキテクチャと共にご紹介頂きました。事前検討に関しては、株式会社 Works Human Intelligence 様のサービスである My Number Keeping System (MKS) で DR 対策を検討される際に策定された、災害発生時の対応体制や SLO などの復旧目標、監視体制をご共有頂きました。MKS のアーキテクチャは Pilot Light 構成をベースに構築されており、本セッションではアプリケーション層と永続層それぞれについてご説明されています。アプリケーション層はリージョン間の差分を意識することなく運用を行うため、災害発生時に 0 からデプロイ機構を構築する構成を取られており、こちらはマルチリージョン対応以前から 8 割程度の IaC 化を進められていたために実現が可能でした。永続層は Amazon DynamoDBAmazon S3 を用いて DR リージョンへのデータの同期やレプリケーションを行い、AWS Key Management Service にてデータキーを管理されています。運用設計に関しては、フェイルオーバーやフェイルバックの条件について実際に定められた条件をご説明いただきました。DR 対策が必要かどうか考えられている方、これから始められる方は是非ご覧ください。


『バーチャル株主総会』における DR 環境の導入及び運用事例
[ 資料 動画 ]

最後のセッションは、株式会社ブイキューブ 岩上 蘭様、中尾 真夕様より、DR 環境の導入と運用事例について実際のアーキテクチャを交えてご紹介頂きました。株式会社ブイキューブ様のバーチャル株主総会システムは、定期総会が集中する特定の期間において、万が一の停止が許されずより高い品質が求められるサービスです。2021 年に大阪リージョンがローカルリージョンから正式リージョンに昇格したことをきっかけに DR に取り組まれ、構成は切り替え時間やランニングコストを考慮の上で Pilot Light を選択されています。本セッションでは、東京リージョンで障害が発生した際にどのように大阪リージョンへの切り替えが行われるかの手順をアーキテクチャと共にご紹介頂きました。大量のアクセス負荷に対応し、重要なデータを適切に取り扱うため、全体の構成は Amazon ECSAmazon AuroraAmazon SQSAmazon S3AmazonElastiCache をご利用頂いています。DR を導入して良かった点としてご紹介された、運用に関わる方々だけでなく、サービスに関わる全ての方の安心感を得ることができたという点は、DR を導入するすべてのお客様にとって欠かせない利点であると思います。マルチリージョンで DR を導入する際のステップや具体的なアーキテクチャ、導入の利点にご興味があるお客様には必見の内容です。


いただいたご質問とその回答

『ある日「DR やって?」と言われたら – 開発・運用現場が始める DR の第一歩』について

Q. プロダクトの SLO、RTO、RPO を定める際に複数のステークホルダーの方から異なる意見が出てくると思うが、その中でどのような要素が決め手となって最終的に目標値を決定したのでしょうか?
A. さまざまな立場の方がいらっしゃるが、コストとのバランスもあるため、プロダクトのマネージャーなど、コスト面をフェアに選べる方が最後の決定を行うことがあります。基本的にはステークホルダーの方々の対話を粘り強く進めていくことが必要です。

Q. DR の訓練はかなり大変な印象がありますが、どのような頻度・規模で実施されているのでしょうか?
A. 頻度は 1 年に 1 度です。必ずしも全ての方々に理想的な値かは分かりませんが、オフィスビルの避難訓練と同じようなもので、1 年に 1 度が一般的という肌感覚です。規模は、作った手順書やリソース全てについて実施するのは大変なので、例えば複数の RDS でバックアップの手順を使いまわせるように、使いまわせるものはどれか 1 つを実施したり、重要度によっては内容の確認だけ行なったりしています。それでも毎年工数が多すぎる場合は、サーバーレスへ移行した方が工数が小さいのではないか、といった点も議論できると、少しずつ負荷を下げられるのではないかと思います。

『DR 対策としてのマルチリージョン対応について』について

Q. DR テストはメンテナンスと称してサービスを停止して行うのでしょうか?それとも Dummy 環境などを準備して実施するのでしょうか?
A. DR テストに関してはステージング環境を本番環境と見立ててテストを実施しました。ステージング環境は本番環境デプロイ前の最終テスト環境のため、本番環境と同等 (データを除く) の状態になっており、本番環境に見立てる事が可能という判断になります。ステージング環境と本番環境どちらで BCP テストを実施するかの判断は難しいとは思いますが、判断軸としてテストの影響範囲の大きさや、万が一の際に稼働影響が出るか出ないかを軸として実施環境を選択しております。DR テストは影響が大きい為、本番環境でのテストを避け、ステージング環境でのテスト実施としました。

次回予告

次回は「AWS re:Invent 振り返り」編です。
re:Invent 2023 で発表された新機能をドドンとデモを含めてご紹介していきます。どのようなコンテンツにするかは鋭意検討中ですので、発表までお待ちください!
次回も多くの方々のご参加を心よりお待ちしております!

第三十七回「アップデート紹介とちょっぴり DiveDeep する AWS の時間」- AWS re:Invent 振り返り編-

  • 開催日時:2023 年 12 月 21 日(木)16:00 – 17:30 オンライン開催
    • アジェンダは決定次第追記させて頂きます!