国際電波天文学研究センター(ICRAR)は、カーティン大学と西オーストラリア大学とのジョイントベンチャーとして 2009 年に誕生しました。西オーストラリアのパースを拠点とする ICRAR の 110 人の従業員は、Square Kilometre Array (SKA) として知られる世界最大の電波望遠鏡を開発する国際的なプロジェクトの一部を構成しています。50 年以上の設計寿命の間に、SKA によって宇宙に対する理解が深まることが期待されています。

SKA のオペレーションが開始されると、世界で現在 1 年間に発生する天空からのデータと同じだけのデータを毎日収集し、処理することになると予想されています。SKA はこれらのデータを使って、科学者が宇宙研究に使用する天空の地図を作成することになります。単一の SKA イメージでも 600 TB という大きさになり、各マップには数千の画像が必要になります。

「計り知れないほどのコンピューティングという挑戦に対処する必要があります」と ICRAR のリサーチ準教授、Kevin Vinsen 氏は言います。「次の 10 年の間に完全運用に達したとき、ケースバイケースですが科学的な性質によっては、SKA で 500 TB から 1 PB までの画像データが毎日収集されます。単純に必要とされる処理能力の量のみを考えても、気が遠くなるほどです。」

一連の予備実験のためのコンピューティングリソースを集めるために、ICRAR ではコミュニティ型のコンピューティングプロジェクトである theSkyNet を構築しました。これは、一般から自発的に提供された余剰 CPU サイクルを使用し、ICRAR がスーパーコンピュータをシミュレートするものです。Vinsen 氏と同僚たちは、theSkyNet プロジェクトの一部として、ハワイの Pan-STARRS1 望遠鏡からの銀河の画像に、theSkyNet によって生成された処理能力を使用します。

クラウドソースのコンピューティングプロジェクトでは、しばしば物理サーバー容量と、入力データの負荷とが釣り合わないことが問題となります。ICRAR では、Vinsen 氏と彼のチームが結果をすばやく出せるようにするために、コスト効率に優れ、かつ柔軟な方法で theSkyNet を使用した実験を行う必要がありました。

SKA の設計に必要な実験のために、スケーラブルでオンデマンド性を持つアマゾン ウェブ サービス(AWS)が選ばれたのは、当然の結果でした。AWS なら、膨大な量の画像データを分析するために ICRAR が必要とするリソースを提供できるのです。Vinsen 氏は、2012 年に theSkyNet を開始するために AWS in Education の助成を受けることに成功しました。昨年、このプロジェクトは 40 teraFLOP にまで成長しました。1 teraFLOP は 1 秒あたり 1 兆回の浮動小数点計算に相当します。

「クラウドベースのソリューションとスーパーコンピューティング設備は相互補完的なものと考えています。次世代の天文台によって作成される巨大なボリュームのデータを処理し、保管し、普及させていく上で、双方が役割を果たすことになるでしょう」と Vinsen 準教授は言います。「私たちは柔軟でありたいと思いますし、専用のスーパーコンピュータの代わりに AWS を使用することは簡単です。」

ICRAR は、すべての外部ユーザーを theSkyNet ウェブサイトにルーティングするために Amazon Route 53 を使用しています。科学者たちは Amazon Elastic Compute Cloud (Amazon EC2) ミディアムインスタンス 1 つと、オンデマンドの Amazon Machine Images (Amazon AMI) を使用して theSkyNet のクラウドソース CPU サイクルを処理し、ネットワークファイルサーバーとして別の Amazon EC2 スモールインスタンスを使用しています。

画像データを保存するために、ICRAR では 60 GB の Amazon Elastic Block Store (Amazon EBS) ボリューム 2 つをマウントし、Amazon Glacier でデータをアーカイブしています。ICRAR チームでは、キーストアとして Amazon Simple Storage Service (Amazon S3) も使用しており、ボランティアに対して彼らの PC の処理能力が分析に役立てられている銀河を表示しています。図 1 に AWS での theSkyNet を示します。 

ICRAR-arch-diag

図 1: AWS での theSkyNet アーキテクチャ

ICRAR は、AWS での theSkyNet プロジェクトをわずか 4 日間でセットアップしました。プロジェクトをサポートする一般ボランティアからの CPU サイクルの増加に応じて、クラウドインフラストラクチャをすばやく、効率的に拡張することが可能になりました。

「AWS の持つスケーラビリティはとても役立っています」と Vinsen 準教授は言います。「最小限の手間で、必要なときにキャパシティーを増やすことができます。AWS を使用することで、最大 150 GB の天空画像を処理し、毎月 400 GB の画像データを保存できます。」

Amazon S3 をキー値の保存に使用することで、世界中の数十万のパブリックな CPU からの入力に対してシームレスにインデックスを付け、管理できるようになりました。ICRAR が theSkyNet コミュニティーに出入りするデータのフローを管理する点では、Amazon ELB が役立っています。

ICRAR は Amazon EBS を使って、コミュニティーによって処理された毎月 400 GB 相当に上る画像処理データを保存しています。ICRAR では、Amazon EC2 によって 400~500 の銀河からのデータを同時に分析可能な処理能力を実現しています。

このプロジェクトは大きな注目を集め、AWS への移行からしばらくして、ロシア、アメリカ、オーストラリアのオンラインコミュニティーが ICRAR の theSkyNet サーバーを過負荷状態にしてしまいました。それでも、Vinsen 准教授はわずか 2 時間でキャパシティーを追加できました。「他のコミュニティーコンピューティングプロジェクトでは、過負荷からの復帰に数日を擁しています。新しいサーバーを導入するためにより多くのインフラストラクチャリソースを見つける必要があるからです」と同教授は言います。「AWS なら、もっと大きなインスタンスをプロビジョニングするだけの話です。」

ICRAR では、theSkyNet 内で今後行われる実験の継続的なコンピューティング要件を満たすために AWS を使う予定にしています。

AWS がデータのニーズにどのように役立つかについては、ビッグデータ詳細ページ http://aws.amazon.com/big-data/ をご覧ください。