Amazon Web Services ブログ

AWS DataSync と Amazon S3 Glacier を使用してファイルアーカイブやバックアップアーカイブを保護する

オンプレミスでは、生成されるデータの量が増えるにつれて、ファイルアーカイブやバックアップアーカイブを格納するためにストレージ容量を増やす必要があります。一般的な方法でバックアップを行い、異なる場所に複数のバックアップがある場合、オンプレミスのディスクストレージまたは物理テープアーカイブには大量のコールドデータが存在する可能性があります。オンプレミスにあるデータのコピーすべてを追跡するのは困難で、多くの場合、時間と費用の両方で多大な損失が発生します。

AWS クラウドストレージ は、オンプレミスのバックアップストレージや物理テープアーカイブに代わる強力な代替手段です。たとえば、Amazon S3 Glacier Deep Archive は、99.999999999% (イレブンナイン) の耐久性を、1 TB あたり月額約 1 USDの価格で提供します。管理するストレージハードウェア、オフサイト持ち出し用のテープ、ハードウェア更新サイクルによる高額な費用などは一切不要になります。AWS クラウドストレージを使用する場合、使用した分だけを支払うだけで、クラウドのスケーラビリティや耐久性などのすべての利点を利用できます。

AWS DataSync は、お客様が AWS との間で迅速、簡単、安全にデータのやり取りができるように設計したオンラインデータ転送サービスです。DataSync を使用すると、オンプレミスの NFS またはSMB の共有リソースから直接 Amazon Simple Storage Service (Amazon S3)Amazon Elastic File System (Amazon EFS)、または Amazon FSx for Windows File Server にデータをコピーできます。DataSync は、専用のパラレル転送プロトコルを使用しているため、オープンソースツールよりも最大 10 倍高速です。DataSync には、実行中と静止中の両方でデータ検証機能が組み込まれているため、データ転送を確実に行えます。

この投稿では、DataSync を使用してオンプレミスのアーカイブデータを 選択したAWS クラウドストレージサービスにコピーする方法について説明します。また、データ保存用として AWS クラウドストレージサービスの選び方と、Amazon S3 がオンプレミスのファイルとバックアップアーカイブを保護する点で理想的なサービスである理由も説明します。最後に、進行中の転送タスクを監視しながら、データ保護ワークロード用に DataSync を設定する方法を説明します。

AWS DataSyncの仕組み

DataSync エージェントは、オンプレミスの VMware 環境に仮想マシン (VM) としてデプロイされます。オンプレミスのソースファイルシステムから AWS の宛先ストレージにデータをコピーするタスクを定義します。次に、タスクを実行して、ファイルを安全に転送します。完全マネージド型の AWS DataSync サービスは、AWS ストレージサービスと連携するように最適化しています。また、拡張してタスクのパフォーマンス要求に応えます。

AWS クラウドストレージのオプション

最初に検討することの 1 つは、アーカイブデータをクラウドのどこに配置するかだと思います。現在、AWS DataSync は、Amazon S3、Amazon EFS、Amazon FSx for Windows File Server の 3 つの AWS クラウドストレージサービスをサポートしています。Amazon EFS と Amazon FSx for Windows File Serverは、Linux アプリケーションおよび Windows アプリケーション向けにスケーラブルなファイルストレージを提供します。これらは通常、低レイテンシーで高速パフォーマンスを必要とするアプリケーション向けに設計されています。ファイルアーカイブやバックアップアーカイブなどのより静的なワークロードの場合、通常、Amazon S3 の方が適しています。

Amazon S3 には、さまざまなワークロードとユースケースに対応するためのさまざまなストレージクラスがあります。S3 ストレージクラスは、主にアクセス性とコストの 2 つの要素に依存します。データに即時アクセスが必要な場合は、S3 標準、S3 Intelligent-Tiering、または S3 低頻度アクセスのいずれかを使用します。データに定期的なアクセスかつ即時のアクセスが不要な場合は、S3 Glacier または S3 Glacier Deep Archive が適切な選択になります。S3 Glacier ストレージクラスは、データへの即時アクセスに適した S3 ストレージクラスよりも全体的に低コストです。コストの詳細については、Amazon S3 料金表のページをご覧ください。

S3 Glacier と S3 Glacier Deep Archive は、ファイルアーカイブやバックアップアーカイブに適しています。これは、アーカイブのデータは通常、短くとも数か月以上は保存する必要がありますが、変更はされず、定期的なアクセスがないためです。これが特定のワークロードに当てはまらない場合は、他の S3 ストレージクラスの使用を検討してください。

S3 Glacier と S3 Glacier Deep Archive のどちらを選択するかは、データ取得の即時性と保持期間をもとに決定します。S3 Glacier では数分から数時間以内にデータを取得できますが、S3 Glacier Deep Archive では最短で 12 時間後です。また、データ保存に必要な期間を検討する必要があります。S3 Glacier の最小保存期間は 90 日で、S3 Glacier Deep Archive の最小保存期間は 180 日です。最小保持期間の期限前にデータを削除した場合、残りの期間に対して課金されます。バックアップとファイルのアーカイブにおいて、数時間の目標復旧時間 (RTO) を満たす必要がある場合、または 90 日後にファイルを削除する場合は、S3 Glacier を選択してください。一方、S3 Glacier Deep Archive は、コンプライアンスの目的など、長期間保持する必要があるアーカイブに適しています。これらのストレージクラスの詳細については、S3 Glacier 製品のページをご覧ください。

Amazon S3 のアーカイブデータを完全に保護するには、バケットでオブジェクトバージョニングを有効にすることを検討してください。バージョニングが有効になっている場合、オブジェクトを書き換える、あるいはオブジェクトのメタデータを変更すると、以前のバージョンを維持したまま、そのオブジェクトの新しいバージョンが作成されます。これにより、意図しない上書きや削除による影響を防ぐことができます。DataSync は、オンプレミスのストレージから変更をコピーします。ランサムウェアの被害など、オンプレミスのデータストレージが危険にさらされるイベントが発生した場合、オブジェクトバージョニングにより、以前のバージョンからデータを回復できます。オンプレミスでメタデータのみを変更しても、新しい S3 オブジェクトのバージョンが生成されることにご注意ください。さらに、単一の DataSync タスクの実行において、1 つの S3 オブジェクトに対して複数のバージョンが作成される場合があります。

AWS DataSync の設定

AWS のどこにデータを保存するかを決定したら、以下に従って DataSync を設定します。

  • 利用可能なネットワーク帯域幅
  • コピーするデータ量
  • データコピーを実行する時間ウィンドウ

AWS DataSync はオンライン転送サービスであり、 AWS Direct Connect または AWS VPN 使用してインターネットまたは Amazon VPC 内でデ​​ータをコピーできます。いずれの方法でも、すべてのデータは処理中に暗号化されます。DataSync のデプロイを計画する場合、データ転送にかかる時間に直接影響するため、利用可能な帯域幅の量を確認する必要があるでしょう。たとえば、100 Mb /秒の利用可能な帯域幅で10 TB のデータを転送する場合、約10日かかります。DataSync タスクに帯域幅制限を設定して、タスクが使用するネットワーク帯域幅を制御できます。

AWS DataSync はエージェントを使用してオンプレミスの NFS または SMB の共有リソースにアクセスし、データを AWS にコピーします。DataSync エージェントは、VMware 環境の仮想マシンとしてオンプレミスにデプロイされます。エージェントは一度に 1 つの転送タスクを実行します。同時に転送するファイル共有が複数ある場合は、複数のエージェントをデプロイする必要があります。また、複数のエージェントを使用して単一ファイル共有を転送する方が効率的な場合もあります。DataSync エージェントのデプロイ方法の詳細については、ドキュメントをご覧ください。

AWS DataSyncを 使用してファイルまたはバックアップアーカイブを保護する場合、一括の転送を行い、その後に継続的な増分の転送を行い、クラウドアーカイブを最新の状態に保つことができます。一括の転送ではソースデータの完全なコピーが作成されますが、継続的な増分の転送では変更のみがコピーされます。一括の転送と増分の転送の両方に同じ DataSync タスクを使用します。増分の転送を定期的 (毎日、毎週など) に行う必要がある場合は、タスクをスケジュールに従って実行するように設定できます。DataSync でのスケジュール設定の詳細については、このブログ投稿をご覧ください。

また、AWSにコピーするファイルをより詳細に制御したい場合があります。DataSync には、エクスクルードフィルターとインクルードフィルターの両方を指定するオプションがあり、オンプレミスシステムからファイルのサブセットのみを転送できます。

タスクの監視

AWS DataSync は、ロギング、イベント、およびメトリクスのために Amazon CloudWatch と完全に統合されています。DataSync の使用を開始する前に、CloudWatch へのDataSync ロギングを設定する必要があります。CloudWatch イベントを使用して、タスクの完了時に通知を送信できます。CloudWatch コンソールと API を使用して、AWS DataSync マネジメントコンソールからタスクのパフォーマンスを監視することもできます。

まとめ

このブログ投稿では、ファイルアーカイブやバックアップアーカイブの低コストで耐久性のあるストレージ用に AWS DataSync を使用してデータを Amazon S3 にコピーする方法について説明しました。クラウドストレージのニーズに最適な AWS ストレージサービスを選択する方法と、DataSync の設定とデータをAWSクラウドにコピーする方法についていくつかガイダンスをご紹介しました。アーカイブデータを AWS に保存することで、オンプレミスのストレージ容量を他の用途に解放したり、セカンダリバックアップストレージの一部を完全に処分することで、オンプレミスのストレージコストと運用オーバーヘッドを削減できます。

詳細を確認し、オンプレミスデータの保護を開始するには、次のリンクをご確認ください。