國際無線電天文研究中心 (ICRAR) 於 2009 年由澳洲科廷大學與西澳大學合資成立。ICRAR 位於澳洲西部的珀斯市,中心內 110 位員工目前與國際團隊合作,開發全世界最大的無線電望遠鏡,稱為平方公里陣列 (SKA)。SKA 計劃在 50 多年的執行期間內,將會拓展我們對宇宙的理解。

一旦開始運行,SKA 預計每天可從天空收集和處理的資料量,相當於全球目前一年產生的資料量。SKA 將利用這些資料繪製天體圖,供科學家研究宇宙。一張 SKA 影像最大可達 600 TB,而每張天體圖將需要數千張影像。

ICRAR 研究副教授 Kevin Vinsen 表示:「我們需要解決難以估量的運算挑戰。SKA 在接下來的十年內開始完全運作時,在某些科學用途下可能需要每天收集 500 TB 到 1 PB 的影像資料。我們執行這個工作所需的運算能力簡直超乎想像。」

為了針對一系列的初步實驗匯集運算資源,ICRAR 成立了一個名為 theSkyNet 的社群運算專案。這個專案讓 ICRAR 使用群眾志願提供的空閒 CPU 週期來模擬超級電腦。接著,在 theSkyNet 專案期間,Vinsen 和同事們會使用 theSkyNet 產生的運算能力,分析從夏威夷 Pan-STARRS1 望遠鏡收集的星系影像。

群眾外包的運算專案通常會碰到實體伺服器容量無法負荷傳入資料量的問題。ICRAR 需要以經濟實惠和彈性的方式利用 theSkyNet 進行實驗,讓 Vinsen 的團隊能夠快速得到結果。

Amazon Web Services (AWS) 具備可擴展與隨需的特性,因此對於設計 SKA 時所需進行的實驗而言,是合理的選擇。AWS 可以提供 ICRAR 分析極大量影像資料時所需的資源。Vinsen 獲得 AWS 教育領域贊助,於 2012 年開始進行 theSkyNet 專案,專案規模在過去一年多已成長至 40 TeraFLOP。1 TeraFLOP 等於每秒 1 兆次浮點運算。

Vinsen 副教授表示:「我們將雲端解決方案和超級電腦設備視為相輔相成的機制,期望這兩者可共同用來輔助處理、儲存及散播新一代天文台產生的龐大資料量。我們希望享有彈性,而且可以輕鬆使用 AWS 來取代專用的超級電腦執行實驗。」

ICRAR 使用 Amazon Route 53 將所有外部使用者路由到它的 theSkyNet 網站。接著科學家使用一個中型 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體和隨需 Amazon Machine Images (Amazon AMI) 來處理 theSkyNet 的群眾外包 CPU 週期,並使用另一個小型 Amazon EC2 執行個體作為網路檔案伺服器。

為了存放影像資料,ICRAR 掛載兩個 60 GB Amazon Elastic Block Store (Amazon EBS) 磁碟區,並使用 Amazon Glacier 存檔資料。ICRAR 團隊也使用 Amazon Simple Storage Service (Amazon S3) 做為鍵值存放區,為志工們展示目前利用其電腦處理能力協助分析的星系影像。圖 1 呈現 AWS 上的 theSkyNet。 

ICRAR-arch-diag

圖 1:AWS 上的 theSkyNet 架構。

ICRAR 只花了四天的時間就在 AWS 上完成 theSkyNet 專案的設定。團隊現在可以隨著群眾志願提供更多 CPU 週期支援專案,快速高效率地擴展雲端基礎設施。

「AWS 的可擴展性對我們有極大的幫助,」副教授 Vinsen 表示。「我可以在需要時隨時增加更多容量,而且一點也不麻煩。使用 AWS 可讓我們每月處理 150 GB 以上的天空影像,以及存放超過 400 GB 的影像資料。」

ICRAR 利用 Amazon S3 做為鍵值存放區,因此能夠無縫地為全球各地數萬個群眾 CPU 建立索引並加以管理。Amazon ELB 協助 ICRAR 管理 theSkyNet 群體傳入和傳出的資料流量。

ICRAR 使用 Amazon EBS,每月可存放群體處理過的超過 400 GB 影像資料。Amazon EC2 為 ICRAR 提供同時分析 400 到 500 個星系資料的運算容量。

結果證明這個專案非常熱門,就在遷移到 AWS 之後,俄羅斯、美國及澳洲等地的線上社群即超出了 ICRAR 的 theSkyNet 伺服器負載量。不過,Vinsen 副教授只花兩小時就新增了額外的容量。他表示:「其他社群運算專案需要花幾天的時間從超載狀態恢復,因為它們必須找到更多基礎設施資源來啟動新的伺服器,但是使用 AWS,我只需要佈建更大的執行個體即可。」

ICRAR 計劃使用 AWS 來因應未來 theSkyNet 專案中各項實驗持續需要的運算能力。

要進一步了解 AWS 如何協助您的資料需求,請瀏覽我們的大數據詳細資訊頁面:http://aws.amazon.com/big-data/