跳至主要內容

AWS 解決方案程式庫

適用於在 AWS 上的多組學和多模式資料整合與分析的指引

概觀

此指引可協助使用者準備用於大規模分析的基因體、臨床、突變、表現和影像資料,並針對資料湖執行互動式查詢。它包括基礎設施即程式碼 (IaC) 自動化、用於快速迭代的持續整合和持續交付 (CI/CD)、用於儲存和轉換資料的導入管道,以及用於互動式分析的筆記本和儀表板。我們還示範如何使用 AWS HealthOmics、Amazon Athena 和 Amazon SageMaker 筆記本儲存和查詢基因體變體和註釋資料。本指南是與生物團隊合作構建的。

運作方式

架構

準備基因組、臨床、突變、表達和成像資料,以進行大規模分析和對資料湖進行查詢。

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

準備基因組、臨床、突變、表達和成像資料,以進行大規模分析和對資料湖進行查詢。

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Well-Architected 支柱

上方的架構圖是一個考量到 Well-Architected 最佳實務而建立的的解決方案的範例。若要完全實現 Well-Architected,您應該盡可能地多遵循 Well-Architected 的最佳實務。

本指南使用 CodeBuild CodePipeline 來構建、封裝和部署解決方案中所需的一切,以擷取和儲存變體呼叫檔案 (VCF),以及處理癌症基因組圖集 (TCGA) 和癌症影像圖集 (TCIA) 中的資料集中的多模式和多模式資料。使用完全受管的服務- Amazon Omics 來展示無伺服器基因組資料擷取和分析。在解決方案 CodeCommit 存放庫中進行的程式碼變更可透過提供的 CodePipeline 部署管道部署。

閱讀卓越營運白皮書

本指南使用具有 IAM 的角色存取,且所有儲存區都已啟用加密、是私有的,並且封鎖公用存取。AWS Glu e 中的資料目錄已啟用加密功能,而 AWS Glu e 將所有寫入 Amazon S3 中的元資料都經過加密。所有角色均以最低權限定義,且服務之間的所有通訊均保留在客戶帳戶中。管理員可以控制 Jupyter 筆記本、 Amazon O mics 變體商店的資料,並使用 Lake Formation 完全管理 AWS Glu e 目錄資料存取,而 Athena SageMaker 筆記本和 QuickSight 資料存取都是透過提供的 IAM 角色來管理。

閱讀安全白皮書

AWS Glue、馬遜 S3、亞馬遜 Omics Athena 都是無伺服器的,隨著資料量的增加而擴充資料存取效能。AWS Glue 佈建、設定和擴充執行資料整合工作所需的資源。Athena 是無伺服器的功能,因此您可以快速查詢資料,而無需設定和管理任何伺服器或資料倉儲。QuickSight SPICE 記憶體內存儲將您的資料探索擴展到數千位使用者。 

閱讀可靠性白皮書

透過使用無伺服器技術,您只需佈建您使用的確切資源。每個 AWS Glue 工作都會根據需要佈建 Spark 叢集,以轉換資料並在完成後取消佈建資源。如果您選擇新增 TCGA 資料集,您可以新增新的 AWS Glue 工作和 AWS Glue 檢索程式,這些工作也會預測隨需資源。Athena 會自動並行執行查詢,因此大多數結果在幾秒鐘內返回。 Amazon Omics 將檔案轉換為 Apache Parquet,大規模最佳化變體查詢效能。

閱讀效能達成效率白皮書

透過使用隨需擴展的無伺服器技術,您只需依使用的資源付費。若要進一步最佳化成本,您可以在 SageMaker 中停止筆記型電腦環境不使用時。QuickSight 儀表板也是透過單獨的 CloudFormation 範本部署,因此如果您不打算使用視覺化儀表板,您可以選擇不部署,以節省成本。 Amazon Omics 大規模最佳化變體資料儲存成本。查詢成本由 Athena 掃描的數據量決定,可以通過相應編寫查詢來優化。

閱讀成本最佳化白皮書

透過廣泛使用受管服務和動態擴展,您可以最大限度地減少後端服務對環境的影響。永續發展的一個關鍵組成部分是最大限度地利用筆記本伺服器執行個體。不使用時,您應該停止筆記本環境。 

閱讀永續發展白皮書

其他注意事項

資料轉換

此架構選擇了 AWS Glu e 作為擷取、轉換和載入 (ETL) 所需的擷取、準備和編目解決方案中資料集以進行查詢和效能。您可以根據需要新增 AWS 膠粘工作和 AWS 膠體檢索程式,以擷取新的癌症基因組圖集 (TCGA) 和癌症影像圖集 (TCIA) 資料集。您還可以新增任務和爬蟲程式,來擷取、準備和編目您自己的專有資料集。

資料分析

此架構選擇了 SageMaker 筆記本提供 Jupyter 筆記本環境以供分析。您可以將新的筆記本新增至現有環境或建立新環境。如果您更喜歡 RStudio 而不是 Jupyter 筆記本,則可以在亞馬遜 SageMaker 上使用 R Studio。

資料視覺化

此架構選擇了 QuickSight 來提供用於資料視覺化和探索的互動式儀表板。QuickSight 儀表板設置是通過單獨的 CloudFormation 模板,因此如果您不打算使用儀表板,則無需佈建它。在 QuickSight 中,您可以建立自己的分析、探索其他篩選器或視覺化,並與同事共享資料集和分析。

充滿信心地進行部署

此儲存庫在 AWS 中建立了一個可擴展環境,以準備用於大規模分析的基因體、臨床、突變、表現和影像資料,並針對資料湖執行互動式查詢。該解決方案演示如何 1) 使用 HealthOmics 變體存儲和註釋存放區來儲存基因子變體資料和註釋資料,2)佈建無伺服器資料擷取管道以進行多模式資料準備和編目,3) 透過互動式介面視覺化和探索臨床資料,以及 4) 使用 Amazon Athena 和 Amazon SageMaker 針對多模式資料湖執行互動式分析查詢。

提供了詳細的指南,以在您的 AWS 賬戶中實驗和使用。建立指南的每個階段 (包括部署、使用和清理) 都經過檢查以準備部署。

開啟實作指南

範本程式碼是一個起點。它經過了產業驗證、具有規範性但並非明確性,並且可以幫助您開始。

在 AWS 主控台中部署範例程式碼

GitHub 上的開放範例程式碼

相關內容

指引

在 AWS 上運用健康 AI 和 ML 服務的多模式資料分析指引

本指引示範如何設定端對端架構,以分析多模式醫療保健與生命科學 (HCLS) 資料。

進一步了解

參與者

BioTeam 是一間生命科學 IT 諮詢公司,熱衷於透過縮小科學家想要用資料做什麼以及他們可以做什麼之間的差距,來加速科學探索。自 2002 年以來,BioTeam 一直致力於科學、資料和技術的交叉領域,具備跨學科能力,可運用策略、進階技術和 IT 服務來解決最具挑戰性的研究、技術和營運問題。我們擅長將科學需求轉化為強大的科學資料生態系統,我們非常自豪能夠與生命科學研究領域的廣泛領導者合作,從生物科技新創公司到最大型的全球製藥公司,從聯邦政府機構到學術研究機構。
Logo for BioTeam featuring the tagline 'Accelerate Science' with stylized horizontal bars in blue and teal tones.

免責聲明

範例程式碼、軟體庫、命令列工具、概念驗證、範本或其他相關技術 (包括我們的人員提供的任何上述技術) 依據 AWS 客戶協議或您與 AWS 之間的相關書面協議 (以適用者為準) 作為 AWS 內容提供給您。您不得在您的生產帳戶、生產或其他關鍵資料中使用此 AWS 內容。您有責任根據您的特定品質控制實務和標準,依生產級用途來測試、保護和最佳化 AWS 內容 (如範例程式碼)。部署 AWS 內容可能會因建立或使用 AWS 收費資源 (如執行 Amazon EC2 執行個體或使用 Amazon S3 儲存) 而產生 AWS 費用。

找到今天所需的資訊了嗎?

讓我們知道,以便我們改善頁面內容的品質