Amazon Web Services ブログ
Globe Telecom が AWS DataSync を使用して 7.2 PB の Hadoop データを移行した方法
データマイグレーションは、組織がクラウドに移行するための重要な第一歩です。多くの場合、ビジネスクリティカルなアプリケーション、データベース、データアナリティクスワークロード、データウェアハウス、ビッグデータ、学習済みの人工知能/機械学習 (AI/ML) モデルのリフトアンドシフトが必要となります。データはさまざまなレイヤーで生成・保存されます。そのため、マイグレーションのプロセスは複雑なものとなり、データの取り込みとマイグレーションのプロセスを合理的な方法論を用いて適切に設計し、継続的なデータ転送をできるようにすることが重要です。
Globe Telecom はフィリピンの大手通信サービスプロバイダーです。フィリピン国内で最大級のモバイル、固定回線、ブロードバンドネットワークを運営しており、約 6,000 万人もの顧客を抱えています。Globe Telecom は、ウェブポータル、コンテンツ登録プラットフォーム、オンラインストア、セルフサービスアプリに AWS を利用することで、優れた顧客体験を提供しています。
この記事では、Cloudera data を Amazon Simple Storage Service (Amazon S3)へ移行した内容を含む、Globe Telecom のデータマイグレーションの道のりを紹介します。このプロジェクトでは、Globe Telecom の Enterprise Data Office (EDO) は異なる事業主体毎に分散してデータを所有していました。Globe Telecom は、7.2 PBのHadoop Distributed File System (HDFS) データを、4ヶ月以内にネットワーク経由での移行を命じられました。移行中もシステムは継続して本番稼動しており、稼働中の Cloudera からS3 バケットへデータ転送を継続することで、データを最新の状態に保ちました。Globe Telecom が保有する Cloudera のライセンスは更新期限が迫っていました。また、新しく生成されたデータがオンプレミスのストレージの容量を圧迫し、ストレージの容量上限に達する懸念があったこともあり、厳しいスケジュールでの移行が必要でした。
Globe Telecom の技術的な要求事項
Globe Telecom は生データを格納するデータレイクとして、 Amazon S3 上に集中型のデータリポジトリの構築・管理を行う必要がありました。 Amazon S3 にデータが到着すると、前処理、分析エンジンとの共有後にデータインサイトを実施する必要がありました。ビジネスユーザーはその後、Business Intelligence (BI) ツールを活用したデータの視覚化を行い、データ主導のビジネス上の意思決定に役立てています。
Globe Telecom の データマイグレーションに対する要件:
- Cloudera は HDFS のソース
- ステージングエリアを使用しない HDFS ストレージノードからのデータマイグレーションの実現
- 10Gb/s の帯域を持つ AWS Direct Connect を活用したオンラインデータマイグレ―ション
- データサイズとしては、7.2 PBあり、履歴データと新しく受信したデータから構成
- 総ファイル数は 10億以上
- 履歴データと新しいデータセットの増分同期
- マイグレーション実施に必要になるオンプレミスリソースへの影響は最小限にする
- 自動化、モニタリング、レポーティング及びスクリプトのサポート
ソリューションの評価
当初は履歴データ移行、新しく取り込んだデータの転送、及びソースとなる Cloudera システムからオープンファイル同期を実行する機能をもつベンダーの製品を検討していました。全体的な機能セットは魅力的で、Globe Telecom の主要な要件を満たしていました。しかし、ライセンス費用、インフラ要件、そして本記事で扱う内容のように大規模ケースの場合、複雑さが重くのしかかり導入を断念しました。更に概念実証(Proof of Concept, PoC )実験を行うためにソフトウェアを入手することも困難でした。
そこで、HDFS のデータを Amazon S3 へマイグレーションするために、 AWS DataSync を含む他ソリューションの評価し、 DataSync を採用しました。採用理由としては、Globe Telecom の主要な要件を満たしており、複数の DataSync エージェントを使用することによってスケールアウトアーキテクチャを構築できる柔軟性が提供されるというところでした。
PoC の間、Globe Telecom は以下のような成功基準を挙げ、各ツールに対して一連のテストを実施しています:
- 俊敏性
- 信頼性
- 機能性
- 可用性とスケーラビリティ
- セキュリティ
- サポートと将来性
- コスト
テストは拮抗した競争となっており、上記の要素の中で差別化可能なものは、コスト、可用性、スケーラビリティでした。最終的に DataSync の選定に影響を与えた要素としては、これらのものに加え、次のような理由がありました。
- 簡単なセットアップとデプロイ
- AWS Command Line Interface (AWS CLI)とスクリプトをサポート
- ソースとターゲット間の増分データ転送
- 単一ダッシュボードでのモニタリング
- タスクベースで拡張可能
- Amazon Elastic Compute Cloud (Amazon EC2) 上の DataSyncエージェント
- シンプルな料金体系
ソリューションの概要
Globe Telecom は、DataSync を使用して 7.2PBの Cloudera データをマイグレーションするために独自のソリューションアーキテクチャを構築しました。AWS としては、低レイテンシーアクセスとパフォーマンスを向上させるためには、ソースストレージのできるだけ近くで DataSync エージェントを実行することを推奨しています。しかし、Globe Telecom がとった構成は、全ての DataSync エージェントは EC2 インスタンスとして稼働しています。これは、オンプレミスのフットプリントを無くすアプローチがとられたからです。DataSync エージェントについての詳細は、DataSync エージェントの要件を参照してください。
各タスクの実行に際しては、”include filters“を適用しています。この機能は AWS DataSync が有するユニークな機能です。ソースストレージの特定フォルダをターゲットに、複数のDataSync エージェントにてデータ転送を行うことで、データ転送をスケールさせることが可能です。これにより、複数のエージェントを用いて DataSyncタスクの並列化を実現しています。PoC 実施に際してこのような準備や調査を細密に実施していく事によって、スムーズな PoC 実施を実現しています。
レジリエンスのための構成
EC2 インスタンスを Availability Zones (AZ)に分散させ、”include filters”でタスクに基づいたエージェントのグループ化を実施しています。こうすることで、HDFS データマイグレーションに際して弾力性のあるアーキテクチャを構築しています。今回の環境は、10 Gbpsの帯域が利用できるネットワークと、一貫した読み取りスループットを提供するソースストレージが存在していたこともあり、待ち時間やパフォーマンス問題は発生していません。また、エージェントごとのタスク割り当てを慎重に計画し、フィルタを使用することによって、データの取り込みの最適化が行えています。
それぞれの AZ で実行されるタスクでは、各ソース HDFS ロケーションに設定された3つの DataSync エージェントが利用されます。万が一の事態に備え追加でで 2つ、スタンバイエージェントの配備・起動を行っています。DataSync タスクはエージェント間での自動フェイルオーバー機能の提供はありません。しかしながら問題が発生したエージェントの代わりにスタンバイエージェントを利用可能です。
スケールのためのデザイン
DataSync エージェントは、オンプレミスとセキュアなエンドツーエンド接続を提供するプライベート VPC エンドポイントを使用しアクティベートしました。現在のソースシステムにおいて、以下のパフォーマンスを達成しています:
ソースシステム |
ネットワーク帯域 |
ネットワークスループット |
読み込み IoPS |
Cloudera CDH 5.13.3, |
10 Gb/s |
800 MB/s |
27 K |
以下のソース Cloudera ロケーションでは、フォルダに各タスクを処理する特定のエージェントを含めています。この方法で、AZ 全体で 9~12 のエージェントを使用し6~9タスクを処理しました。
データタイプ | ソースディレクトリ ロケーション |
S3 上の送信先ロケーション |
履歴データ | HDFS /S2/data/ | Prod S3 /s2/data |
タスクの並行実行により、ネットワーク利用率は 85% を実現しています。これによって、1日あたりの最大 72TB データ転送を実現しました。これは800MB/s 、約2.2TB/hとなります。
DataSync エージェントのサイジングとしては、各タスクあたり 5,000万ファイルの要件を満たすために、m5.4xlarge インスタンスとしてデプロイしています。
以下の画像は、タスクの実行と DataSync ロケーションでの “include filters” のために作成した戦略です。
マイグレーションを行っていくにあたり、最初のフェーズで移行が必要なデータセットとして、履歴データ用のHDFS ディレクトリが格納されているデータセットがありました。そのため、それらを優先対象として扱っています: 以下の画像中の s1、s2及びその配下のディレクトリ群です
これらのデータセットには、6PB超の履歴データと、最初の同期フェーズ後に移行される125TBの日時の増分データで構成されています。
さらに、同一ソースロケーションとタスクフィルタを組み合わせて使用し、ファイル更新の増分の移行するタスクを実行しました。
最後に
Globe Telecomの EDO のデータマイグレーションプロジェクトは、4か月という定められたプロジェクト期間内に無事完遂しました。 DataSync は俊敏性、柔軟性、セキュリティを提供し、高いパフォーマンスとより迅速で安全なデータ移動のためのスケールアウトアーキテクチャを構築しました。ビルトインされた自動化、モニタリング、単一のダッシュボードでのビュー、タスク完了レポートによりチームメンバーはデータ移行戦略に集中できています。また、データ移行コストを削減し、移行フェーズで安心感を得ることができました。DataSync のデータ整合性と検証チェックにより、移行後のデータに自信を持つことができました。これにより、分析データパイプラインを迅速に開始でき、エンドユーザーに対してさらなるデータ処理実現とデータ可視化を短納期で実現できました。AWS Cloud への HDFS データマイグレーションの効率化に DataSync が寄与しました。
この記事を読んでいいただきありがとうございます。AWS DataSyncの詳細についてはデモをご覧ください。
この記事はアマゾンウェブサービスジャパンの畠泰三が翻訳しました。原文はこちら