位於德克薩斯州休士頓的貝勒醫學院設有人類基因體定序中心 (HGSC),是美國聯邦政府資助的三所基因體定序中心的其中一所。HGSC 所參與的其中一個專案是基因流行病聯盟的心臟與老齡化研究專案 (CHARGE),此專案集結了全球 5 個研究機構中超過 200 位的科學家,致力於找出導致老化與心臟疾病的基因。CHARGE 專案是一項持續性的合作計劃,專門分析來自美國國家心肺及血液研究機構 (NHLBI) 大型世代研究與歐洲相似研究的基因樣本與表型資料。CHARGE 與貝勒醫學院目前正攜手合作,找出眾多研究參與者的基因序列,並透過貝勒的 Mercury 分析管道進行處理,以協助科學家深入了解基因變體在預防及治療中風與心臟疾病所扮演的角色。貝勒有 20 部定序機器,每月可產生約 24 terabase 的內容,約 1 PB 的原始資料。目前該研究有超過 14,000 位參與者。這麼龐大的資料資源需要創新的資料解決方案。

DNAnexus 提供資料管理、新一代定序資料分析,並為 DNA 定序中心與研究人員提供安全的協同作業。DNAnexus 服務是透過單一的統一系統提供,可隨著客戶特殊的學術或商業需求進行擴展。這個統一的系統包含運算及儲存的隨需基礎設施、生物資訊學與雲端運算支援、安全且合規的協同作業,以及其他眾多功能。DNAnexus PaaS 解決方案建立在 Amazon Web Services (AWS) 上,使用者包含學術機構、政府研究實驗室、生物製藥公司及診斷測試提供者。

自上個世紀以來,有許多研究持續追蹤病人的生活,以判斷特定病症與疾病如何產生。隨著 DNA 定序工具的開發及龐大資料集管理能力的提升,CHARGE 專案現在開始重新分析這類研究的結果。世界各地的 CHARGE 科學家都在利用這些資料研究疾病的成因與防範之道。

但隨著 DNA 定序工具效率的提高以及基因測試越來越盛行,需要分析的資料量也變得相當龐大。CHARGE 專案有超過 430 TB 的資料,光是要將資料分發給感興趣的科學家就相當棘手。過去資料會儲存在硬碟,進行加密處理後,再以郵寄的方式寄給 CHARGE 專案中超過 200 位的科學家;但這種作法不但拖延了分享資訊的速度,還有資料安全上的疑慮。「要將硬碟寄給這麼多人,處理郵件時真是一大夢魘,」貝勒的首席程式設計科學家 Narayanan Veeraraghavan 表示。「資料每到一個點就必須經過加密處理。但有這麼多的科學家處理這麼多的硬碟,總是會錯誤連連,因為並不是每個人都能遵照安全準則操作。」

而光是基礎設施就是一大挑戰。「設定基礎設施需歷時數月,才能滿足我們在資料儲存體及運算的特定需求,」Veeraraghavan 表示。「在這幾個月中,技術和協定都可能變更,而對定序平台的更新可能會造成定序工具的輸出增加一倍。因此,硬體需求就比原先規劃和預估的高出一倍。」貝勒也希望能讓科學家在不同的作業系統上共用工具。

但本機運算的重擔可能會讓他們「拖垮這些專案」,Veeraraghavan 說道。「我們必須要能大規模運作並存放這些龐大的資料。所以得改用其他解決方案,否則 CHARGE 研究的支出會高得嚇人。由我們自行安排所需的運算資源實在是太困難,或者根本不可行。」

貝勒醫學院需要一個具有成本效益且易於維護的解決方案,以便提供安全、高效的全球合作,不會因為建置實體基礎設施而導致延遲。Veeraraghavan 表示:「我們沒有幾個月的時間可以設置基礎設施,而且我們需要以有效率、互動且安全的方式共用資料。」

此外,解決方案必須具備足夠的彈性,以滿足臨床標準和 HIPAA 要求。「我們列出所有的需求後,很自然地就被 DNAnexus 和 AWS 雲端所吸引。」

貝勒決定與 DNAnexus 展開合作關係,提供以 API 為基礎的 PaaS,讓臨床及研究企業以高效、安全的方式將分析管道與資料移入 AWS 雲端。客戶可透過 DNAnexus 將其專屬演算法匯入雲端,並結合業界認可的工具與參考資源,建立自訂的工作流程。DNAnexus PaaS 完全建立在 AWS 上,這有利於 DNAnexus 將其系統擴展至超過 20,000 個同步運算核心、1 PB 的儲存、數百萬核心小時的分析,並在 AWS 雲端中協調數以萬計的運算任務。AWS 也為 DNAnexus 提供商業夥伴協議 (BAA),使 DNAnexus 得以提供同級最佳安全性,並遵守美國與國際的醫療保健法。使用 AWS,客戶可建立並執行 HIPAA 合規工作負載。

CHARGE 專案使用貝勒分析管道 Mercury 處理資料。Mercury 管道使用定序工具產生原始檔案,並將這些資料轉換成最終交付檔案:有註釋的變異識別檔案,以識別具有臨床顯著性的突變。負責後續階段的科學家則會進行第三級分析,著手處理其他研究疑問。有一小群研究人員正在開發工具,藉以進一步觀察每個遺傳標記的生物學,以便使用新發現的結果重新處理預測性與保護性基因的資料。透過 DNAnexus 平台,研究人員可以比較並共用不同的工具,而不受地理限制影響。

DNAnexus 使用 Amazon Simple Storage Service (Amazon S3) 和 Amazon Glacier 存放超過 1 PB 的基因體資料。DNAnexus 建立了命令列工具,可供科學家從定序工具直接將 DNA 資料上傳至雲端,而不必建置昂貴的現場部署儲存基礎設施。Amazon Elastic Compute Cloud (Amazon EC2) 自行託管 DNA 分析。DNAnexus 開發了在 Amazon EC2 執行個體上運作的自訂佇列系統,旨在解決資料處理過程的中斷情況。

為了優化成本,DNAnexus 使用 Amazon EC2 預留執行個體執行互動服務,例如網站、客戶前端入口網站和 DNA 視覺化工具,以及後端的雲端與任務管理服務。

DNAnexus.arch

圖 1. 貝勒在 AWS 雲端上的 HGSC 架構

貝勒與 DNAnexus 按照 AWS 所述的最佳實務,控制 Mercury 管道的存取權以保護 CHARGE 資料。「我們處理的是與大眾相關的敏感醫療資訊,」Veeraraghavan 表示。「您可以使用單一管道,並控制該管道的存取權,以建構風險最低的環境。」AWS 中嚴格的安全性協定使 DNAnexus 的客戶享有同級最佳安全性、合規性,以及符合 HIPAA、CLIA 等其他複雜法規準則的稽核標準。DNAnexus 首席雲端總監 Omar Serang 表示:「我們可以在安全、合規的環境中,以前所未見的規模,為需要運算基礎設施的超大型臨床研究提供技術支援。」

轉移至 AWS 與 DNAnexus 之後,貝勒在 10 天內完成了首次分析 – 比起本機基礎設施,只花了五分之一的時間 – 而且可以迅速分享研究成果。分析使用了 21,000 個核心;一個 Amazon EC2 XL 執行個體有 16 個虛擬核心。「AWS 雲端可提供快速的協同作業,即使資料多達數百 TB 也一樣,」Veeraraghavan 表示。「一旦有了中央區域可供人員處理資料,就降低了頻寬以及購買和維護運算資源的需求。」

比起過去需要寄送硬碟來協助科學家們協同作業,現在的情況則截然不同。使用 AWS 與 DNAnexus 之後,貝勒與 CHARGE 可為使用不同作業系統的科學家,提供共通的環境來共用分析工具。「無論科學家使用 Mac、Linux 或 Windows 作業系統,都能以各種工具執行 DNAnexus 中的所有 CHARGE 資料,」Veeraraghavan 說道。CHARGE 首席 DNAnexus 科學家 Andrew Carroll 則補充:「我們可以藉由 AWS 雲端來比較並了解適合及不適合自己專案的工具。AWS 雲端上的 DNAnexus 可讓研究人員輕鬆與科學界分享所學新知。」

AWS 雲端的可擴展性則有助於 CHARGE 科學家更精準地預測他們正在研究的症狀。他們也能識別出可防止人類生病的「保護性」基因,而且能做得又快又安全。「這就是您為什麼一定要使用 AWS 雲端的原因,」Carroll 說道。「為了完成工作,CHARGE 必須在很短的時間內儘可能執行極大量的工作負載。AWS 雲端讓 DNAnexus 擁有足夠的彈性,可在 AWS 技術上建立自己專屬的 PaaS。DNAnexus 系統的運算與資料儲存體資源幾乎可以無限擴展。」

更重要的是,使用 DNAnexus 與 AWS 可讓 CHARGE 科學家專注於科學本身,而非基礎設施。「要為不斷湧入的流量升級基礎設施需要可觀的投資,更別提還要找擺放的空間,」Veeraraghavan 表示。「而且,這類運算也不是一次就能拍板定案;反之,技術會不斷迅速成長。我們在探索科學知識的途中,遭遇了各種限制。但多虧有了 AWS 與 DNAnexus,現在我們能專注於科學而不是基礎設施上。」

要進一步了解雲端中的基因體資料處理,請瀏覽 AWS 基因體詳細資訊頁面