東京大学 空間情報科学研究センター(CSIS)の中で「人の流れプロジェクト( http://pflow.csis.u-tokyo.ac.jp)」 を2008年度より立ち上げており,現在,15都市圏合計300万人弱の人の流れ(動線)に関する大規模データセットを作成し,産官学の公的利用向けに提 供しています。我々自身はこうしたデータセットの作成(移動経路の時空間的な内挿や推定の処理)と,その過程で必要となるデータ処理アルゴリズム等の研究 開発・実装を行っています。また,データセットのユーザーは,防災,交通,マーケティング等,様々な形で大規模かつダイナミックなシミュレーション等を 行っています。
数十万人規模の動線データに関するデータセットを作成するにあたり,大規模なデータ処理環境が一時的に必要となるため,データ処理の発生に応じて,分散処 理用に想定した必要数分のインスタンスをEC2に作成して利用しています。処理前後のデータは直接EC2に作成したインスタンスと受け渡しを行うこともあ るが,データサイズが非常に大きい場合などは,S3を経由して受け渡すこともあります。
前述の通り,一時的に大規模データの処理が必要となるため,オンデマンドで使用でき,処理環境の性能も規模に応じて選択できるAWSは,新たに処理用の計 算機を購入することに比べると,非常に効率的であったことが大きな要因となっています。特に数十台から数百台規模での分散処理を想定した場合,AWSにお ける仮想環境は非常に有効と考えています。
移動経路の時空間的な内挿や推定をWebAPIとして提供しているが,アクセスの集中(約250万アクセス/月)でレスポンスが低下することがあるため,過渡期にはEC2でWebAPIを起動し負荷分散することを想定しています。
単体の処理環境では1年程度を要すると試算していた処理について,EC2で100台のインスタンスに分散して処理したところ,数日で結果が得られた例があり,こうした時間短縮は研究開発において非常に有用です。
全てのケースに適用できるわけではありませんが、大規模なデータ処理やシミュレーションなど、従来単体の計算機環境で長時間の処理を要していたものを、分 散処理に適応した形式に修正できるのであれば、AWS環境からその分散処理環境が提供されます。研究開発コストとして大規模データ処理用の計算機が含めに くい状況において有効です。
前述の通り,多数の仮想環境を非常に効率的に低コストで利用できる点が最も有用で,研究開発の助力になっているものと考えています。また,事前にコストの見積もりができる上,利用料金が随時確認できる点も有用です。
Amazon Elastic Map ReduceやRelational Database Service(RDS)は、AWSを使用し始めた当初にはサービスに無かったため、現状の分散処理に適用させて利用していきたいと考えています。また, 大規模データ向けのNoSQLデータベースとしてDynamoDBにも関心があり,こちらも検討していきたいです。
リージョン間でのAMIのマイグレーションに期待したい.また,一部のリージョンにて提供されていないサービス(import/exportなど)についても,早期のリリースを期待しています。