客戶案例 / 生命科學

2023 年
BioNtech 標誌

BioNTech 使用 AWS 將蛋白質體學工作流程的資料處理速度提升 500 倍

了解 BioNTech 如何使用平行化工作流程來加速質譜資料處理,將處理時間縮短 500 倍。

檔案搜尋時間縮短

50%–75%

顯著降低

運算執行個體的成本

同時執行數百個

資料搜尋

提升

科學家的工作效率,同時維護強大的資料安全

提升

組織內資料的可存取性和可重複使用性

概觀

總部位於德國的 BioNTech 是一家全球性公司,專注於開發癌症和傳染病的免疫療法和疫苗,如 Pfizer-BioNTech COVID-19 疫苗。質譜測定法 (MS) 是一種強大的技術,可以直接從患者來源的腫瘤組織或細胞株中鑑定與人類白細胞抗原 (HLA) 分子結合的胜肽。這些 HLA 免疫胜肽組可作為用於細胞治療的抗原發現來源,並用於訓練機器學習模型,為疫苗開發提供資訊。 

BioNTech 旨在進一步改進其儲存、組織和處理 TB 級 MS 資料的工作流程,使其更有效率且可擴展。他們決定將其內部部署的 MS 軟體和資料儲存遷移到 Amazon Web Services (AWS),以進行可擴展且安全的先進處理程序。 現在,BioNTech 利用 AWS Storage Gateway (一種為內部部署應用程式提供幾乎無限雲端儲存存取的服務) 加快了獲取的洞察時間,並讓研究人員更容易共享和利用 MS 資料協作。

Young female tech or scientist performs protein assay

機會 | 使用 AWS Storage Gateway 進一步簡化並加速 BioNTech 質譜資料的處理

質譜測定法是用於免疫胜肽組學研究的強大技術,因為它能在一次臨床相關組織和細胞株的分析中檢測和鑑定數千種獨特的 HLA 結合胜肽。單次採集產生的原始資料集是一個大型光譜集合,可以針對參考蛋白質組資料庫搜尋,以產生胜肽和蛋白質鑑定結果。在蛋白質組學和免疫胜肽組學工作流程中,Spectrum Mill MS Proteomics Software 等軟體套件是處理和分析日常收集之大量 MS 資料的重要元件。 

直到 2022 年,該公司仍在本機伺服器上執行此軟體。科學家必須手動將資料從儀器電腦轉移到執行 Spectrum Mill 的本機工作站,而這些裝置很快就會被填滿,並且需要額外步驟來封存資料。BioNTech 資料工程師 Akhil Chaudhary 表示,「我們的總資料很容易達到 10-15 TB,而將其轉移到內部部署裝置既耗時又具挑戰性。」「隨著我們的研究活動不斷增加,MS 資料收集量也在顯著增加。」BioNTech 解決方案架構師 Michael McCarthy 表示,「本機硬體已無法支撐我們的規模。」 

為了加速資料處理和對解釋結果的存取,BioNTech 的運算生物學團隊需要一種方法來同時處理數百個具有不同搜尋參數和蛋白質序列資料庫的請求,這是他們將胜肽和蛋白質資訊最大化以促進新發現之作業的一環。該部門與 BioNData 團隊 (公司內部中央資料和分析小組) 接洽,以建立工具來水平擴展資料處理能力。該團隊選擇 AWS 來建立混合實驗室資料模型,並建立了水平擴展 API。「在美國,我們將 AWS 成功運用於產品的案例已有很長一段歷史。」McCarthy 表示,「這是自然而然的選擇。」

kr_quotemark

「在 AWS 上,我們的科學家正在產生和共享明顯更多的資料,目的是為患者找到有效、『標靶』和個人化的療法。真正限制我們的是想像力,而我目前還沒發現無法在 AWS 中建立的東西。」

Michael McCarthy
BioNTech 解決方案架構師

解決方案 | 使用平行化工作流程大幅加速資料處理

在第一階段,BioNTech 的重點是能將資料無縫地從 MS 儀器電腦移動到雲端,並在 AWS 上託管 Spectrum Mill。第二階段涉及建立可同時執行搜尋請求的系統。 

為了將 MS 原始資料轉移到雲端,BioNTech 在每台儀器電腦上安裝了 AWS Storage Gateway 代理程式。採集後,MS 原始資料會快速自動轉移到 Amazon Simple Storage Service (Amazon S3),這是一種物件儲存服務,可從任何地方擷取任何數量的資料。Chaudhary 表示,「速度非常快。一個 5GB 的檔案只需要 5-10 秒就能出現在 Amazon S3 上。」隨著多台儀器產生大型資料集,這個 MS 資料管道能夠更有效地將資料遷移到集中位置,以便處理和封存。 

BioNTech 運算生物學團隊很快就採用了新的工作流程。「每個人都在使用雲端系統,研究人員覺得它使用起來更簡單。」McCarthy 表示,我們在 AWS 中自動化資料管理,讓科學家專注於科學研究。」 

接下來,團隊在 Amazon Elastic Compute Cloud (Amazon EC2) 上安裝了 Spectrum Mill,它能為幾乎任何工作負載提供安全且可調整大小的運算容量。「透過在雲端執行 Spectrum Mill,我們將單一搜尋時間縮短了 50-75%。」Chaudhary 表示,此外,BioNTech 還執行 Amazon EC2 Spot Instances,與隨需價格相比,它能在節省多達 90% 費用的條件下,執行容錯工作負載。因為公司只為使用執行個體的時間付費,因此大幅降低了運算成本。 

為了擴展一次可執行的工作流程數量,該團隊使用了可用於提供啟動執行個體所需資訊的Amazon Machine Images,以及可新增或移除運算容量的 Amazon EC2 Auto Scaling,從而滿足不斷變化的需求。McCarthy 表示,「現在,我們執行搜尋的速度提高了 50-75%,透過 Amazon EC2 Auto Scaling,我們可以平行執行數百個執行個體,將資料處理速度大幅提升 500 倍。」 

BioNTech 使用全受管訊息佇列服務 Amazon Simple Queue Service (Amazon SQS) 來管理 Spectrum Mill 工作流程。該公司使用 Amazon API Gateway,即一項用於建立、維護和保護任何規模 API 的服務,來執行 Spectrum Mill 搜尋。然後,它從 Amazon Redshift 上的資料倉儲中擷取資料。Amazon Redshift 能夠為雲端資料倉儲提供卓越的價格效能。科學團隊利用這些資料集確定治療標靶,並為疫苗設計建立人工智慧演算法。 

該團隊使用 data.all (一種用於在 AWS 帳戶之間共享資料集的開放原始碼工具) 將處理後的結果與公司內的資料使用者聯繫起來。因此,研究人員不再需要把時間花在資料管理上。McCarthy 表示,「我們的科學家正在 AWS 上產生和共享指數級成長的材料,目的是為患者找到有效、標靶和個人化的治療方法。」

成果 | 將速度與可擴展性拓展到更多工作流程

BioNTech 很快就看到了其在 AWS 上的全新工作流程的好處。Chaudhary 表示,「我們僅支付以往價格的一小部分,就能在 60 小時內重做過去 7 年來的所有工作。」在下一階段,該團隊希望改進和自動化質譜分析工具,以降低胜肽的錯誤發現率。該團隊也正在為其 API 建立圖形化介面,以便公司所有團隊都能在日常工作流程中受益於該 API。

「Spectrum Mill 專案只是我們計劃中的眾多專案中的第一項。」McCarthy 表示,「這個專案讓我們有信心可以為全球團隊解決類似的問題。真正限制我們的是想像力,而我目前還沒發現無法在 AWS 中建立的東西。」

關於 BioNTech

BioNTech 是全球性免疫療法研發公司,致力於創造和製造主動免疫療法,並針對癌症和其他疾病的治療和疫苗進行臨床試驗。

使用的 AWS 服務

AWS Storage Gateway

AWS Storage Gateway 是一組混合雲端儲存服務,提供幾近無限雲端儲存的內部部署存取。

進一步了解 »

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) 提供最廣泛、最深入的運算平台,擁有超過 750 個執行個體,可選擇最新處理器、儲存、聯網、作業系統和購買模型,以協助您最有效地滿足工作負載需求。 

進一步了解 »

Amazon S3

Amazon Simple Storage Service (Amazon S3) 是一種物件儲存服務,提供領先業界的可擴展性、資料可用性、安全性及效能。 

進一步了解 »

Amazon SQS

Amazon Simple Queue Service (Amazon SQS) 可讓您在軟體元件之間傳送、存放和接收不限數量的訊息,不會遺失訊息,也不需要使用其他服務。

進一步了解 »

更多生命科學客戶案例

找不到項目 

1

開始使用

各行各業各種規模的組織每天都在使用 AWS 來變革其業務和履行其使命。聯絡我們的專家,立即開始您的專屬 AWS 雲端之旅。