我們的 lncRNA 分析需要非常大量的運算處理和整合。有了 AWS,我們可以快速地在 1,000 或更多個節點上運算,因此基因組序列分析所需的時間從幾週縮短到幾天。 
Mitch Guttman 博士 生物與生物工程部門助理教授

加利福尼亞理工學院 (Caltech) 的 Guttman Lab for lncRNA Biology 是由聲譽卓著的科學家 Mitch Guttman 博士領導的研究實驗室。他率領研究團隊研究一種新類別的基因體,稱為 lncRNA,即「長鏈非編碼核糖核酸」的簡稱。Guttman 團隊將基因體研究方法搭配生物化學、分子生物學、細胞生物學及計算生物學等領域,探索 lncRNA 如何合成細胞中的蛋白質和 DNA 分子來控制精準的基因表現編程。

當 Guttman 博士在 2013 年來到 Caltech 時,他希望確保他的研究團隊擁有靈活有彈性的高效能運算 (HPC) 叢集。Guttman 表示:「我們考慮適合實驗室的叢集時,知道它必須支援運算需求的浮動情況。有時候我們需要 1,000 個運算節點,有時候卻只需要 10 個,這取決於可取得的資料量以及研究計劃所處的階段。而且同時匯集多個計劃可能會讓所需數量增加更多。」

不過,實驗室希望可以不必建立自己的現場部署叢集來支援其需求。Caltech 資訊管理系統與服務處的首席系統管理員 John Lilley 說明:「加利佛尼亞州的部分土地價格和電力成本是美國最高,所以我們擔心自行建立叢集的成本過於昂貴。我們也不想將時間花在管理和維護叢集上。」

另外,Guttman 團隊也希望確保他們能夠輕鬆地管理叢集存取登入資料。Lilley 說:「我們希望能夠從單一集中位置啟用和停用叢集使用者帳戶,不用擔心任何一部電腦上缺少登入資料。」

Caltech 已經將它的所有 Web 系統移到 Amazon Web Services (AWS) 雲端平台,Guttman Lab 也選擇使用 AWS 來支援其 HPC 叢集。Lilley 表示:「我們一直在尋找以雲端做為運算資源的方法,而 AWS 是最適合的選擇,因為它提供了我們期待的彈性、靈活性,並且能節省成本。」

Guttman Lab 使用的 HPC 叢集中包括連線到 Amazon Virtual Private Cloud (Amazon VPC) 的電腦,實驗室可透過這種方式在 AWS 雲端上佈建一個邏輯上隔離的部分,以便在指定的虛擬網路中啟動 AWS 資源。物理實驗室 (dry lab) 和生物實驗室 (wet lab) 的研究人員取得基因組序列資料後,會儲存到 Amazon VPC 內的 GlusterFS 檔案系統,並使用共享的 AWS Linux 工作站存取資料,存取權限則透過 Simple AD (與 Active Directory 相容的 AWS Directory Service 目錄) 進行驗證。

實驗室也使用由 Amazon WorkSpaces 管理的桌面運算服務,以供非 Linux 使用者利用。Lilley 說:「我們想讓 Windows 使用者能夠從他們物理實驗室的電腦連線至 Amazon WorkSpaces,而且和 Linux 使用者享有相同的資料存取權限層級;同時我們可以使用 Simple AD 輕鬆地管理這些存取權限。」實驗室使用 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體建立 GlusterFS 節點,並使用 CfnCluster 架構在 AWS 上部署和維護 HPC 叢集。研究團隊使用這個叢集開發運算工具和統計方法來分析實驗資料。

使用 AWS 之後,Guttman Lab 獲得了管理運算需求浮動情況所需的彈性。Lilley 說:「我們不用建立自己的實體叢集來管理週期性運算用量,因為 AWS 會自動調整。」Guttman 進一步說明:「現在,我們不需要預先花時間排定研究計劃的優先順序,因為我們知道一定有足夠的運算能力,而且也不用每幾年就更新一次硬體。我們也能夠積極地發展和試驗新的研究方法。AWS 絕對是實驗室順利運轉的推手。」

實驗室也擁有能夠在需要時增加更多運算資源的靈活度。Lilley 表示:「我們前一陣子需要將 GlusterFS 系統從 5 TB 擴展到 24 TB,不用購買新的硬體就輕鬆做到了。我們直接增加更多的 Amazon EC2 節點並提高雲端儲存體數量,在一小時內就大功告成。以前必須花幾週的時間才能完成,因為要討論購買硬體的價格,然後進行採購、安裝和測試。」

不僅如此,實驗室的研究人員使用 AWS 雲端,還可加快 lncRNA 資料的分析。Guttman 說:「lncRNA 分析需要大量的運算處理和整合。有了 AWS,我們可以快速地在 1,000 或更多個節點上運算,因此基因組序列分析所需的時間從幾週縮短到幾天。憑之前有限的容量是無法做到的。」

使用 Amazon EC2 競價型執行個體對備用 Amazon EC2 運算容量進行競價的方式,也降低了實驗室的成本。Guttman 表示:「考慮到使用 AWS 所獲得的彈性運算能力以及 EC2 競價型執行個體提供的成本效益,這個叢集遠比我們自行建置的費用低廉許多。」

Guttman Lab 藉由使用 Amazon WorkSpaces 與 Simple AD,可以輕鬆地管理使用者對 HPC 叢集的存取權限。Lilley 說:「當我們一開始使用叢集時,將登入資料從 Linux 桌面同步到管理主機和 CfnCluster 是一項繁複的工作。將 Simple AD 整合到叢集之後節省了很多時間,因為我們可以從一個集中的位置啟用和停用使用者帳戶。Simple AD 協助我們讓整個環境內的資料保持一致。」

Caltech 規劃未來讓更多實驗室和部門在 AWS 上運作。Lilley 說明:「我們打算將在 AWS 上建立的成果帶給校內其他基因體研究人員。我們認為這可做為在 Caltech 推動 HPC 的範本。」

要進一步了解雲端中的基因體資料處理,請瀏覽我們的 AWS 基因體詳細資訊頁面

要進一步了解 AWS 如何協助您管理 HPC 叢集,請瀏覽我們的 AWS 高效能運算詳細資訊頁面