Caltech Guttman Lab 案例研究

2016

加利福尼亞理工學院 (Caltech) 的 Guttman Lab 是由聲譽卓著的科學家 Mitch Guttman 博士領導的研究實驗室。他率領研究團隊研究一種新類別的基因體,稱為 lncRNA,即「長鏈非編碼核糖核酸」的簡稱。Guttman 團隊將基因體研究方法搭配生物化學、分子生物學、細胞生物學及計算生物學等領域,探索 lncRNA 如何合成細胞中的蛋白質和 DNA 分子來控制精準的基因表現編程。

開始 python 教學
kr_quotemark

我們的 lncRNA 分析需要非常大量的運算處理和整合。有了 AWS,我們可以快速地在 1,000 或更多個節點上運算,因此基因組序列分析所需的時間從幾週縮短到幾天。

Mitch Guttman 博士
Caltech Guttman Lab 生物與生物工程部門助理教授

挑戰

當 Guttman 博士在 2013 年來到 Caltech 時,他希望確保他的研究團隊擁有靈活有彈性的高效能運算 (HPC) 叢集。Guttman 表示:「我們考慮適合實驗室的叢集時,知道它必須支援運算需求的浮動情況。有時候我們需要 1,000 個運算節點,有時候卻只需要 10 個,這取決於可取得的資料量以及研究計劃所處的階段。而且同時匯集多個計劃可能會讓所需數量增加更多。」

不過,實驗室希望可以不必建立自己的現場部署叢集來支援其需求。Caltech 資訊管理系統與服務處的首席系統管理員 John Lilley 說明:「加利佛尼亞州的部分土地價格和電力成本是美國最高,所以我們擔心自行建立叢集的成本過於昂貴。我們也不想將時間花在管理和維護叢集上。」

另外,Guttman 團隊也希望確保他們能夠輕鬆地管理叢集存取登入資料。Lilley 說:「我們希望能夠從單一集中位置啟用和停用叢集使用者帳戶,不用擔心任何一部電腦上缺少登入資料。」

為何選擇 Amazon Web Services

Caltech 已經將它的所有 Web 系統移到 Amazon Web Services (AWS) 雲端平台,Guttman Lab 也選擇使用 AWS 來支援其 HPC 叢集。Lilley 表示:「我們一直在尋找以雲端做為運算資源的方法,而 AWS 是最適合的選擇,因為它提供了我們期待的彈性、靈活性,並且能節省成本。」

Guttman Lab 使用的 HPC 叢集中包括連線到 Amazon Virtual Private Cloud (Amazon VPC) 的電腦,實驗室可透過這種方式在 AWS 雲端上佈建一個邏輯上隔離的部分,以便在指定的虛擬網路中啟動 AWS 資源。物理實驗室 (dry lab) 和生物實驗室 (wet lab) 的研究人員取得基因組序列資料後,會儲存到 Amazon VPC 內的 GlusterFS 檔案系統,並使用共享的 AWS Linux 工作站存取資料,存取權限則透過 Simple AD (與 Active Directory 相容的 AWS Directory Service 目錄) 進行驗證。

實驗室也使用由 Amazon WorkSpaces 管理的桌面運算服務,以供非 Linux 使用者利用。Lilley 說:「我們想讓 Windows 使用者能夠從他們物理實驗室的電腦連線至 Amazon WorkSpaces,而且和 Linux 使用者享有相同的資料存取權限層級;同時我們可以使用 Simple AD 輕鬆地管理這些存取權限。」 實驗室使用 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體建立 GlusterFS 節點,並使用 CfnCluster 架構在 AWS 上部署和維護 HPC 叢集。研究團隊使用這個叢集開發運算工具和統計方法來分析實驗資料。

優勢

使用 AWS 之後,Guttman Lab 獲得了管理運算需求浮動情況所需的彈性。Lilley 說:「我們不用建立自己的實體叢集來管理週期性運算用量,因為 AWS 會自動調整。」Guttman 進一步說明:「現在,我們不需要預先花時間排定研究計劃的優先順序,因為我們知道一定有足夠的運算能力,而且也不用每幾年就更新一次硬體。我們也能夠積極地發展和試驗新的研究方法。AWS 絕對是實驗室順利運轉的推手。」

實驗室也擁有能夠在需要時增加更多運算資源的靈活度。Lilley 表示:「我們前一陣子需要將 GlusterFS 系統從 5 TB 擴展到 24 TB,不用購買新的硬體就輕鬆做到了。我們直接增加更多的 Amazon EC2 節點並提高雲端儲存體數量,在一小時內就大功告成。以前必須花幾週的時間才能完成,因為要討論購買硬體的價格,然後進行採購、安裝和測試。」

不僅如此,實驗室的研究人員使用 AWS 雲端,還可加快 lncRNA 資料的分析。Guttman 說:「lncRNA 分析需要大量的運算處理和整合。有了 AWS,我們可以快速地在 1,000 或更多個節點上運算,因此基因組序列分析所需的時間從幾週縮短到幾天。憑之前有限的容量是無法做到的。」

該實驗室還透過 Amazon EC2 Spot 執行個體降低成本,相較於隨需定價未使用的 Amazon EC2 運算容量最多可節省 90%。Guttman 表示:「考慮到使用 AWS 所獲得的彈性運算能力以及 EC2 Spot 執行個體提供的成本效益,這個叢集遠比我們自行建置的費用低廉許多。」

Guttman Lab 藉由使用 Amazon WorkSpaces 與 Simple AD,可以輕鬆地管理使用者對 HPC 叢集的存取權限。Lilley 說:「當我們一開始使用叢集時,將登入資料從 Linux 桌面同步到管理主機和 CfnCluster 是一項繁複的工作。將 Simple AD 整合到叢集之後節省了很多時間,因為我們可以從一個集中的位置啟用和停用使用者帳戶。Simple AD 協助我們讓整個環境內的資料保持一致。」

Caltech 規劃未來讓更多實驗室和部門在 AWS 上運作。Lilley 說明:「我們打算將在 AWS 上建立的成果帶給校內其他基因體研究人員。我們認為這可做為在 Caltech 推動 HPC 的範本。」


關於 Caltech Guttman Lab

加利福尼亞理工學院 (Caltech) 的 Guttman Lab 是由聲譽卓著的科學家 Mitch Guttman 博士領導的研究實驗室。


使用的 AWS 服務

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) 是一種 Web 服務,可在雲端提供安全、可調整大小的運算容量。該服務旨在降低開發人員進行 Web 規模雲端運算的難度。

進一步了解 »

Amazon VPC

Amazon Virtual Private Cloud (Amazon VPC) 允許您在 AWS 雲端佈建一個在邏輯上隔離的部分,並在自己定義的虛擬網路中啟動 AWS 資源。

進一步了解 »

Amazon WorkSpaces

Amazon WorkSpaces 是安全且受管的桌面即服務 (DaaS) 解決方案。

進一步了解 »


開始使用

各行各業各大規模的公司每天都在使用 AWS 來變革其業務。聯絡我們的專家,立即開始使用 AWS 雲端。