西奈山伊坎醫學院位於美國紐約州紐約市,是一所在醫療與科學訓練、生醫研究和病患照護方面受到國際認可的領導級醫學院。該機構致力於散播生醫知識,提供專業的醫療照護及服務社區。西奈山伊坎醫學院與西奈山醫院密切合作,服務多樣性與複雜度在全世界名列前茅的當地病患族群。

西奈山伊坎醫學院的研究人員與醫師正嘗試解開乳癌和卵巢癌的基因秘密。西奈山醫院的 John A. Martignetti 和 Peter R. Dottino 博士及其 Station X 的共同研究者,正在探索由美國癌症基因體圖譜計劃聯盟 (The Cancer Genome Atlas Consortium,TCGA) 所產生的超過 2,000 個乳房與卵巢腫瘤及生殖系譜 DNA 序列。TCGA 是一個全方位的合作計劃,透過應用基因體分析技術 (包括大規模的基因體排序) 加速了解癌症的分子基礎。TCGA 為美國國家癌症研究中心 (National Cancer Institute,NCI) 與美國國家人類基因體研究中心 (National Human Genome Research Institute,NHGRI) 的合作計劃,這兩個機構皆隸屬於美國衛生與人群服務部的國家衛生研究院,院內共有 27 個研究機構與中心。

由於科學家要分析超過 100 TB 的資料、提出新的假設並重新分析資料,因此需要可觀的運算能力。在所有因遺傳基因而可能罹患乳癌或卵巢癌的女性當中,大約一半的案例來自 BRCA1 或 BRCA2 的生殖系譜突變。研究人員正嘗試在不帶有 BRCA1/2 突變的案例當中找出缺少的基因環節。

Martignetti 和 Dottino 博士與 Station X 合作,成功獲得解決方案供應商的協助,由供應商為研究工作提供穩固且安全的分析平台。Station X 開發出 GenePool™ 基因體研究軟體平台,專供科學家與臨床醫師處理早期研究和臨床環境中的人類基因體資料。

從 TB 級的基因體資料中挖掘資訊並確保資訊的安全性,這需要一個靈活且具備大數據儲存和嚴格存取控制功能的高效能平台。這顯然是雲端運算的工作。

Amazon Web Services (AWS) 是 Station X 基因體平台 GenePool 的基礎,它可以動態擴展,在數分鐘內完成對成千上萬對基因體的分析工作。Station X 產品副總裁 Sandeep Sanga 表示:「AWS 是一個建置軟體環境的天然場所。我們在 AWS 上建立了 GenePool,讓研究人員能夠對數量龐大的資料進行管理和分析。我們之所以選擇 AWS,是因為其提供的服務數量非常有競爭力。」使用 AWS 可讓 Station X 能夠專注於設計 GenePool 平台,以協助研究人員迅速、安全地理解其序列資料。

對於西奈山的研究人員來說,維護病患資料的安全非常重要。Martignetti 表示:「維護病患的機密對我們而言是最重要的工作,更何況我們產生的資料量非常大,這可不是小事。但是透過 AWS 和 GenePool,我們順利達成符合機密性所需的標準。」使用 AWS 之後,Station X 可以提供事先核准的研究人員權限,存取美國癌症基因體圖譜計劃中存取權限受到控制的資料。Sanga 表示,這讓獲得授權的使用者能夠「運算和了解病患乳癌或卵巢癌的細胞體和生殖系譜」。

西奈山使用 AWS Identity and Access Management (IAM) 進行使用者身份驗證,可透過 AWS 存取控制清單 (ACL) 控制及管理帳戶存取權限,以安全且集中化的方式管理使用者與登入資料。Amazon Simple Notification Service (Amazon SNS) 與 Amazon Simple Email Service (Amazon SES) 為需要通知與警示的系統管理員和最終使用者提供對外簡訊服務。

Elastic Load Balancing 協助 Station X 確保其 Web 和 API 架構具備可擴展性,且在 Amazon VPC 環境中具備恢復能力和安全性,將資料存放區與中介層與網路隔離,不對網際網路公開。Sanga 表示:「將我們的資料存放區與中介間層與網路隔離,不對網際網路公開,就能讓所有伺服器保持私有,確保大幅降低安全性風險。」

西奈山研究人員使用 AWS 雲端管理 Amazon Simple Storage Service (Amazon S3) 上儲存的大量基因體資料,並從中擷取有意義的資訊,且在 Amazon Glacier 上預留額外儲存空間。

Station X 使用 Amazon Elastic Block Store (Amazon EBS) 儲存體來存放高價值的關鍵資料,讓具備彈性和高效能的儲存系統能夠處理大量需事先運算的資料,以進行即時的基因體分析。

Amazon Elastic Compute Cloud (Amazon EC2) 用來支援 GenePool 內建的統計模型、視覺篩選功能,同時與基因體和臨床註釋資料庫充分整合,並且支援透過 RESTful Web 服務整合。Sanga 表示:「Amazon EC2 的彈性能讓我們以經濟實惠且可動態擴展的方式,執行重要的資料處理和分析。」西奈山使用專用的 Amazon S3 儲存體以確保能安全存放病患的基因體資料,以及在 GenePool 中進行分析。圖 1 說明西奈山的架構。

mount-sinai-arch-diag

圖 1. 西奈山研究架構

GenePool 使用 Amazon CloudWatch 進行監控,以確保系統能有效地運作。Amazon ElastiCache 提供集中化快取機制,能夠快速地傳回大型資料集的分析結果。Sanga 表示:「多虧我們在 AWS 上建置的基因體研究軟體平台,科學家們能夠在幾分鐘或幾秒鐘之內回答關鍵的問題。」

Martignetti 與 Dottino 博士使用 AWS 和 GenePool 之後,可以從美國癌症基因體圖譜計劃快速挖掘成千上萬的病患記錄,然後在符合其科學假設的大量候選新基因中找出基因反常現象。Martignetti 與 Dottino 博士將這些候選基因與其他基因體研究資料交互參考,就能夠增加可能用來偵測遺傳性乳癌和卵巢癌的候選基因。

Martignetti 表示:「使用 AWS 雲端之前,我們沒辦法與外部的共同研究者分析如此大量的資料集。我們無法有意義地仔細檢查資料、分析資料、重新篩選資料,而這些工作對於我們找出缺少的環節都至關重要。」

Sanga 表示:「在 AWS 上建置 GenePool,使得 Station X 有能力為我們的轉譯和臨床基因體研究客戶存放資料集。」他補充:「我們使用 AWS 獲得顯著的競爭優勢:快速存取資料、充裕的儲存空間,以及強大的運算能力。這種研究專案是永無止盡的,永遠都有更多資料可以分析。所以即使我們協助研究人員獲得科學上的結論,也永遠都有更多知識可以學習。使用 AWS 之後,我們已經準備好面對挑戰。」

若非能在 AWS 雲端上以安全的方式執行這種分析,西奈山的醫師就無法進一步進行研究。Martignetti 表示:「使用 AWS,我們能以安全且經濟實惠的方式存放來源檔案,而且還能保有相當高的耐久性和可存取性。沒有 AWS,就無法進行研究。藉由使用 AWS 和 GenePool,我們希望能夠查明確定為缺少環節的突變,了解某些女性罹患這兩種癌症的風險為何較高。」

要進一步了解雲端中的基因體資料處理,請瀏覽我們的 AWS 基因體詳細資訊頁面