Amazon Web Services ブログ

VMware Cloud on AWSの耐障害性設計に関する考慮事項とベストプラクティス

AWSでSpecialist Partner Solutions Architectを務めるKiran Reid、Sr TAM (MNG) を務めるSudha Thillai Govindarajan、Principal Partner Solutions Architectを務めるWen Yuによる記事です。

さまざまな業界や業種のお客様が、本番ワークロードに VMware Cloud on AWSを採用しています。
高可用性要件で実行したいワークロードがある場合、利用可能なさまざまなアーキテクチャパターンと構成オプションを理解することが重要です。
本稿では、VMware Cloud on AWSを活用するお客様の耐障害性設計に関する主な考慮事項と責任について説明します。 アマゾン ウェブ サービス (AWS)では、セキュリティについて議論する際に 責任共有モデルがしばしば参照されます。VMwareのVMware Cloud on AWS向け責任共有モデルも同様で、詳細について VMwareのドキュメントで確認を行うことができます。
下の 図1では、VMware Cloud on AWSの基本ブロックを示しており、お客様が各レイヤーでレジリエンシーをどう構成できるかを確認できます:

  1. インフラストラクチャの耐障害性
  2. 仮想マシンとデータの耐障害性
  3. ネイティブ・サービスとの連携による耐障害性

VMware-Cloud-AWS-Resiliency-1

図1 – 基本ブロック

インフラストラクチャの耐障害性

AWSのグローバルインフラストラクチャ上で稼働し、VMwareによって管理されるVMware Cloud on AWSを利用する事により、お客様はインフラストラクチャのハードウェアとソフトウェアのメンテナンスにおける、他との差別化に繋がらない重労働について心配する必要がなくなりました。

AWSとVMwareは、インフラストラクチャと、基盤となるソフトウェア、およびSoftware‑Defined Data Center (SDDC)の構成に責任を持ちます。詳細はVMwareが提供するインフラストラクチャサービスアグリーメントをご覧ください。

お客様の責任

ハードウェア障害やデータセンターの停止は起こり得るものですが、自動フェイルオーバーを手助けするソリューションがあります。お客様は、それらソリューションやSDDCの組み込み機能を活用して、リージョンやデータセンターの障害から、ビジネスクリティカルなワークロードを保護する責任があります。

次に、ストレッチクラスタと非ストレッチクラスタを含むクラスタの耐障害性オプション、SDDCに対するさまざまな接続オプション、およびお客様が認識すべき耐障害性に関する考慮事項について説明します。

標準クラスタの耐障害性

標準 (非ストレッチ)クラスタは、すべてのホストが1つのAWSアベイラビリティーゾーン内でデプロイされます。VMware vSphere High Availability (HA)は、基盤となるホストの障害から標準クラスタを保護します。

複数のノードを持つSDDCは、Redundant Array of Inexpensive Disk (RAID)、そして仮想マシン (VM)が許容できるホストおよびデバイスの障害の数を定義するFailure to Tolerate (FTT)のさまざまな構成を通じてデータの冗長性を提供します。

データ冗長性なし(RAID-0)、もしくはパフォーマンス最適化 (ミラーリング)、容量最適化 (イレージャ コーディング)のRAID構成から選択できます。

  • RAID 1 (ミラーリング)は、単一のストレージデバイスと同等の優れた読み取り速度と書き込み速度を提供します。ストレージデバイスに障害が発生した場合、データを再構築する必要はなく、交換用ドライブにコピーするだけです。主な欠点は、すべてのデータが2回書き込まれるため、実効ストレージ容量がドライブ容量の合計の半分に過ぎないことです。
    .
  • RAID-5/6 (イレージャ コーディング)の読み取り操作は非常に高速ですが、書き込みデータのトランザクションは(計算する必要があるパリティの為)多少遅くなります。ストレージデバイスに障害が発生しても、障害が発生したストレージデバイスが交換されストレージコントローラが新しいストレージデバイスにデータを再構築している間でも、すべてのデータにアクセスできます。ドライブの障害はスループットに影響しますが、これはほとんどのワークロードで許容されます。

VMware Cloud on AWSでは、クラスター内のホスト配置にPartition Placement Groups (PPG)を活用しています。

クラスタ内のホストが別々のパーティションに配置されている場合、障害(ハードウェア障害など)は、クラスタ内の複数のホストではなく、単一のホストにのみ影響を与えます。VMware Cloud on AWSのサービスは、追加の設定作業なしに、この機能を自動的かつ透過的に提供します。

PPGと適切なFTTの設定により、ラックレベルの障害からワークロードを保護できます。

FTT = 0 (データ冗長性なし)の仮想マシンでは、ホストに障害が発生した場合にデータが失われることがあります。この構成で実行されているVMは応答しなくなることがあります。

標準クラスタ構成及びVMware vSANのFTTポリシーを1以上に設定する事により、アベイラビリティーゾーン内のホストまたはホストコンポーネントの障害に対するアプリケーションワークロードの復元性が得られます。

クラスタを5ホストから6ホストにスケールアップする場合、より大きな障害プールを補うためにFTTは最低2つの障害(RAID-6またはRAID-1)を維持しなければなりません。

マネージドのストレージポリシー (デフォルトストレージポリシー)を使用するクラスタは自動的に再構成されますが、カスタムポリシーは手動で更新する必要があります。 6ホスト以上のホストのクラスタでFTT-1のポリシーを継続的に使用するという事は、VMwareはサービス定義のガイダンスに従い、可用性を保証しない、という事を意味します。

ストレッチクラスタ

インフラストラクチャの可用性が重要なワークロードについては、データが異なるアベイラビリティーゾーンのホストに同期的にレプリケートされる、マルチアベイラビリティーゾーン展開である”ストレッチクラスター”を構成することをお勧めします。

このオプションを使用すると、SDDCにさらなるレジリエンシー・レイヤーが提供されます。データの損失を防ぐ為に、デュアル サイトミラーリングのサイトの障害許容を利用する必要があります。

ストレッチクラスタの詳細については、VMwareのドキュメントを参照ください。

VMware-Cloud-AWS-Resiliency-2

図2 – vSANストレッチクラスタ

アベイラビリティーゾーンに障害が発生した場合、vSphere HAによって、もう一方のアベイラビリティーゾーンのホスト上でワークロードを再起動します。

VMware Cloud on AWS接続の耐障害性

耐障害性に優れ、フォールトトレラントなネットワーク接続は、アプリケーションワークロードの可用性の鍵となります。要件に応じて、1つのネットワーク接続で障害が発生しても、冗長接続に負荷がかかったり劣化したりしないように、十分なネットワーク容量をプロビジョニングする必要があります。いくつかのオプションを見てみましょう。

基本的な接続

IPsec VPN: 仮想プライベートネットワーク (VPN)での基本的な接続について、IPsec VPNはインターネット接続を利用する為の最も経済的なオプションです。単一障害点を回避するには、複数のインターネットサービスプロバイダ (ISP)を使用する必要があります。IPsec VPN接続パラメータの変更レコードは、ユーザーが保持する責任があります。

専用接続

AWS Direct Connect: SDDC環境とオンプレミス環境のワークロード間で 1 Gbpsを超えるトラフィックが持続する場合、またはトラフィックに対して一貫したパフォーマンスを必要とする場合、AWS Direct Connectを使用するようにVMware Cloud on AWSを設定することをお勧めします。

AWS Direct ConnectとバックアップとしてVPNの利用: AWS Direct Connectをプライマリ接続オプションとして利用し、IPsec VPNをバックアップとして選択する事もできます。VMware Cloud on AWSおよびAWS Direct Connectによるネットワーク接続のシンプル化に関するブログ記事を参照してください。

VPNは、AWS Direct Connectと同等の高速、低レイテンシー、一貫したネットワークパフォーマンスは提供しません。1 Gbpsを超えるワークロードや接続のバックアップとしてVPNを使用することは避けてください。

VMware-Cloud-AWS-Resiliency-3

図3 – AWS Direct ConnectとバックアップとしてVPNの利用

冗長化されたDirect Connect接続からSDDCへのデュアルVIF: すべての本番ワークロードに対して、異なるDirect Connectロケーション (ロケーションの冗長性)で終端する、個別の物理Direct Connect接続を介して、少なくとも2つの仮想インターフェイスを設定することを推奨します。詳細はAWS Direct Connectのベストプラクティスを参照ください。

VMware-Cloud-AWS-Resiliency-4

図4 – 冗長接続を介したデュアルVIF

SDDCから他のAmazon Virtual Private Cloud (VPC)インスタンスへの接続は、AWS Transit GatewayVMware Transit ConnectAWS Direct Connect ゲートウェイ、およびVPN接続を使用して実現できます。ネットワーク接続が可用性を維持できない場合に、フェイルオーバーをサポートするように冗長ネットワークパスを構成するのは、お客様の責任です。

仮想マシンとデータの耐障害性

VMware Cloud on AWSは、VMware Cloud on AWSのvSANストレージ ドキュメントに記載されているように各SDDCクラスタに2つのvSANデータストア (クラウド管理者が管理するWorkloadDataStore、VMwareが管理するvSANDataStore)を提供します。

お客様の責任

インフラストラクチャのバックアップ(vCenterおよびNSX)は日次で実行されるため、インフラストラクチャのコンポーネント・構成を細分化、またはポイントインタイム・リストアするオプションがないことに注意する必要があります。お客様が構成の権限を持つアイテム(ネットワークセグメント、VPN、ファイアウォール、NATルールなど)への追加や変更は、翌日までバックアップされません。

これらの変更の詳細を確実に記録するよう、変更ログ、アーキテクチャ図、内部変更管理プロセスなどに責任があります。また、VMware Cloud on AWS APIリファレンス及びProgramming the VMware Cloud on AWSドキュメントも使用できます。このドキュメントでは、RESTプログラミングインターフェイスを使用して変更をキャプチャし、必要に応じて保存および復元できます。

お客様はWorkloadDataStoreの内容(ポリシーや設定を含む)がSDDC以外の場所にバックアップ、テスト、および格納されていることを確認する責任があります。

お客様の要件を確認することが重要です。ポイントインタイム・リストアを円滑に進める為に、データの複数のバージョンまたはコピーを検討する必要があるかもしれません。VMware Cloud on AWSのコストを最小限に抑える方法の1つは、AWS Storage Gateway、パートナー統合ソリューションを使用したストレージアプライアンス、またはアプリケーションレベルのバックアップソフトウェアを使用してAmazon Simple Storage Service (Amazon S3)にバックアップを保存することです。

オンプレミスにあるStorage Gatewayは、AWS Direct ConnectまたはSSLインターネット接続を使用して、バックアップデータをStorage Gatewayバックエンドに安全に転送します。

AWS File Gatewayは、AWS Identity and Access Management (IAM)ロールを使用して、お客様のバックアップデータにアクセスし、Amazon S3に安全に保存します。

VMスナップショットは、アップグレード、アプリケーションもしくはオペレーティングシステムのパッチ適用などの変更後にロールバックする機能を提供します。しかしながら、スナップショットはバックアップではありません。AWSと AWS Partner Network (APN)は、信頼できる製品を使用したVMware環境向けの安全性、効率性、費用効果の高いバックアップおよびリストアを支援します。

お客様は、これらのバックアップを、個々の要件に応じて、異なるAWSアベイラビリティーゾーンまたはリージョンに保存される事を確認する必要があります。詳細については、リファレンスアーキテクチャを参照してください。

ディザスタリカバリ

ディザスタリカバリは通常、自然災害時に発生しますが、ハードウェア障害や人為的なエラーでも災害レベルのイベントが発生する可能性があります。ビジネス継続性を実現するには、強固なデータ保護戦略を立てることが不可欠です。

物理的に独立したディザスタリカバリ (DR)サイトを維持する要件は、ビジネス主導または規制主導の場合があります。VMware Site Recoveryを使用すると、完全に機能するDRサイトの運用にかかるコストと労力を排除できます。また、VMware vSphereやVMware Site Recoveryなどの使い慣れたテクノロジーを使用して、企業はゼロからDRの準備を数時間以内に行うことができます。

VMware Site Recoveryはサービスとして提供されるため、お客様はソフトウェアコンポーネントの相互運用性や互換性について他との差別化に繋がらない重労働を引き受ける必要がありません。VMware Cloud on AWSポータルにアクセスし、アドオンとしてSite Recoveryをアクティブ化できます。

VMware-Cloud-AWS-Resiliency-5

図5 – リージョン間におけるVMware Site Recovery

VMware Site Recoveryは、お客様にとって効率的な方法でディザスタリカバリを自動化する、アプリケーション中心のDRランブックを提供します。このサービスは、VMware Site Recovery ManagerおよびvSphere Replicationをベースにした既存のソリューションを組み合わせて使用できます。

お客様の責任

ディザスタリカバリについて、災害発生時に保護が必要なワークロードに適したDRサイトを設計し、実装するのはお客様の責任です。

リージョンの障害から保護するために、VMware CloudのDRサイトとして、プライマリのVMware Cloud on AWS SDDCとは別のリージョンを選択することをお勧めします。

AWSサービスとの連携

ファイルシステムの管理をAWSにオフロードしたいお客様において、AWSサービスとの統合は、SDDCからElastic Network Interface (ENI)を介してお客様のアカウントの接続されたVPCへの広帯域・低遅延の接続によって実現されます。

さらに、お客様はVPCエンドポイントを利用することができます。ENIを使用しているお客様については、VMwareがこの接続の可用性について責任を負います。

VMの保護に加えて、お客様はネイティブのフルマネージド型AWSサービスを活用して、VMware Cloud on AWS SDDC内でファイルサーバーを実行できます。

Amazon S3はオブジェクトとしてデータにアクセスできるアプリケーションに最適ですが、多くのアプリケーションはデータをファイルとして保存してアクセスします。Amazon Elastic File System (Amazon EFS)およびAmazon FSx for Windows File Serverは、アプリケーション用のファイルベースのストレージを提供するフルマネージド型AWSサービスです。

お客様の責任

VMware Cloud on AWS SDDCのファイアウォールを設定して、必要なトラフィックを許可または禁止するのはお客様の責任です。また、VMware Cloud on AWS SDDCとの間でトラフィックを許可およびルーティングするように、接続されたVPCを設定する責任があります。

Amazon EFSおよびAmazon FSxを使用する場合、データを別の階層に移動するのはお客様の責任です。AWS DataSyncを構成して、規制およびデータ保護要件を満たすようにデータ階層化、リージョン間の保護を実行する事ができます。

リファレンスアーキテクチャ

以下のアーキテクチャは、耐障害性と高可用性を最適化するためのVMware Cloud on AWSのベストプラクティスと考慮事項を示しています。

VMware-Cloud-AWS-Resiliency-6

図6 – すべてを一つにまとめる

このリファレンスアーキテクチャのさまざまなコンポーネントを見てみましょう:

  1. VMware HAは、ホストに障害が発生した場合、存続しているホスト上で仮想マシンを再起動し、サイトのローカルのレジリエンシーを提供します。推奨ポリシーであるFTT = 2を使用して、ビジネスで許容されるホスト障害の数に基づいて、サイトのローカルパフォーマンスとリカバリの要件を満たすようvSANポリシーが設定されている事を確認して下さい。
    .
  2. ストレッチクラスターを使用する事により、リモートサイトでVMを再起動し、リージョン内のAWSアベイラビリティーゾーンのレジリエンシーを提供します。
    .
  3. VMware Site Recoveryを使用すると、オンプレミスまたはVMware Cloud on AWS SDDCのワークロードをリージョン間で保護できます。VMware Site Recoveryは、リージョンの災害に対する保護を提供し、規制要件への対応を支援します。
    .
  4. Amazon S3バケットはリージョン内の構成要素です。リージョンの障害からユーザーを保護するために、別リージョンにバックアップを保存するようにS3を設定できます。これはデフォルトでは実行されないため、規制およびリカバリの要件を満たすように構成する必要があります。
    .
  5. Amazon FSxを使用する場合、セカンダリ(DR)リージョンでAmazon FSxを構成する事が可能です。ソースデータの近くでAWS DataSyncエージェントを設定し、ソースからDRリージョンまたはアベイラビリティーゾーンにデータをレプリケートするようにDataSyncサービスを設定する必要があります。
    .
  6. また、AWS DataSyncを使用して、Amazon EFSファイルシステム間でデータのコピーを行います。これは、異なるリージョンやアベイラビリティーゾーンに配置して、リカバリ要件を満たせるようにする必要があります。
    .
  7. vCenterおよびNSXの設定に対する変更は、次にスケジュールされたバックアップまで保存されません。これらの変更の詳細が変更ログ、アーキテクチャ図、および内部変更管理プロセスに確実にキャプチャされる事を確認する責任があります。vSANはバックアップされないため、バックアップが設定、テストされ、SDDCの外部に保管されていることを確認する必要があります。
    .
  8. VPNをバックアップとして使用可能な一方で、一貫したパフォーマンスを得るには、異なるDirect Connectロケーションで終端する、別々のAWS Direct Connect接続経由で少なくとも2つの仮想インターフェイスを使用します。

まとめ

VMware Cloud on AWSでは、組み込みのSDDC機能を使用、及びAWSのネイティブサービスを活用して、データを保護する方法を提供しています。これらを使用すると、アプリケーションのニーズに応じて高いレベルのレジリエンシーを提供できます。

既存および新規のお客様は、データ損失を回避し、ダウンタイムを最小限に抑えるために、アーキテクチャのパターンと耐障害性設計の考慮事項を理解する必要があります。アプリケーションの保護に役立つ本稿のガイドラインとリファレンスアーキテクチャを確認することを推奨いたします。

翻訳はPartner SA 豊田が担当しました。原文はこちらです。