- AWS 解決方案程式庫›
- 適用於在 AWS 上的多組學和多模式資料整合與分析的指引
概觀
Well-Architected 支柱
上方的架構圖是一個考量到 Well-Architected 最佳實務而建立的的解決方案的範例。若要完全實現 Well-Architected,您應該盡可能地多遵循 Well-Architected 的最佳實務。
本指南使用 CodeBuild 和 CodePipeline 來構建、封裝和部署解決方案中所需的一切,以擷取和儲存變體呼叫檔案 (VCF),以及處理癌症基因組圖集 (TCGA) 和癌症影像圖集 (TCIA) 中的資料集中的多模式和多模式資料。使用完全受管的服務- Amazon Omics 來展示無伺服器基因組資料擷取和分析。在解決方案 CodeCommit 存放庫中進行的程式碼變更可透過提供的 CodePipeline 部署管道部署。
本指南使用具有 IAM 的角色存取,且所有儲存區都已啟用加密、是私有的,並且封鎖公用存取。AWS Glu e 中的資料目錄已啟用加密功能,而 AWS Glu e 將所有寫入 Amazon S3 中的元資料都經過加密。所有角色均以最低權限定義,且服務之間的所有通訊均保留在客戶帳戶中。管理員可以控制 Jupyter 筆記本、 Amazon O mics 變體商店的資料,並使用 Lake Formation 完全管理 AWS Glu e 目錄資料存取,而 Athena 、 SageMaker 筆記本和 QuickSight 資料存取都是透過提供的 IAM 角色來管理。
AWS Glue、亞馬遜 S3、亞馬遜 Omics 和 Athena 都是無伺服器的,隨著資料量的增加而擴充資料存取效能。AWS Glue 佈建、設定和擴充執行資料整合工作所需的資源。Athena 是無伺服器的功能,因此您可以快速查詢資料,而無需設定和管理任何伺服器或資料倉儲。QuickSight SPICE 記憶體內存儲將您的資料探索擴展到數千位使用者。
透過使用無伺服器技術,您只需佈建您使用的確切資源。每個 AWS Glue 工作都會根據需要佈建 Spark 叢集,以轉換資料並在完成後取消佈建資源。如果您選擇新增 TCGA 資料集,您可以新增新的 AWS Glue 工作和 AWS Glue 檢索程式,這些工作也會預測隨需資源。Athena 會自動並行執行查詢,因此大多數結果在幾秒鐘內返回。 Amazon Omics 將檔案轉換為 Apache Parquet,大規模最佳化變體查詢效能。
透過使用隨需擴展的無伺服器技術,您只需依使用的資源付費。若要進一步最佳化成本,您可以在 SageMaker 中停止筆記型電腦環境不使用時。QuickSight 儀表板也是透過單獨的 CloudFormation 範本部署,因此如果您不打算使用視覺化儀表板,您可以選擇不部署,以節省成本。 Amazon Omics 大規模最佳化變體資料儲存成本。查詢成本由 Athena 掃描的數據量決定,可以通過相應編寫查詢來優化。
透過廣泛使用受管服務和動態擴展,您可以最大限度地減少後端服務對環境的影響。永續發展的一個關鍵組成部分是最大限度地利用筆記本伺服器執行個體。不使用時,您應該停止筆記本環境。
其他注意事項
資料轉換
此架構選擇了 AWS Glu e 作為擷取、轉換和載入 (ETL) 所需的擷取、準備和編目解決方案中資料集以進行查詢和效能。您可以根據需要新增 AWS 膠粘工作和 AWS 膠體檢索程式,以擷取新的癌症基因組圖集 (TCGA) 和癌症影像圖集 (TCIA) 資料集。您還可以新增任務和爬蟲程式,來擷取、準備和編目您自己的專有資料集。
資料分析
此架構選擇了 SageMaker 筆記本提供 Jupyter 筆記本環境以供分析。您可以將新的筆記本新增至現有環境或建立新環境。如果您更喜歡 RStudio 而不是 Jupyter 筆記本,則可以在亞馬遜 SageMaker 上使用 R Studio。
資料視覺化
此架構選擇了 QuickSight 來提供用於資料視覺化和探索的互動式儀表板。QuickSight 儀表板設置是通過單獨的 CloudFormation 模板,因此如果您不打算使用儀表板,則無需佈建它。在 QuickSight 中,您可以建立自己的分析、探索其他篩選器或視覺化,並與同事共享資料集和分析。
充滿信心地進行部署
此儲存庫在 AWS 中建立了一個可擴展環境,以準備用於大規模分析的基因體、臨床、突變、表現和影像資料,並針對資料湖執行互動式查詢。該解決方案演示如何 1) 使用 HealthOmics 變體存儲和註釋存放區來儲存基因子變體資料和註釋資料,2)佈建無伺服器資料擷取管道以進行多模式資料準備和編目,3) 透過互動式介面視覺化和探索臨床資料,以及 4) 使用 Amazon Athena 和 Amazon SageMaker 針對多模式資料湖執行互動式分析查詢。
提供了詳細的指南,以在您的 AWS 賬戶中實驗和使用。建立指南的每個階段 (包括部署、使用和清理) 都經過檢查以準備部署。
範本程式碼是一個起點。它經過了產業驗證、具有規範性但並非明確性,並且可以幫助您開始。
相關內容
指引
在 AWS 上運用健康 AI 和 ML 服務的多模式資料分析指引
本指引示範如何設定端對端架構,以分析多模式醫療保健與生命科學 (HCLS) 資料。
參與者
免責聲明
找到今天所需的資訊了嗎?
讓我們知道,以便我們改善頁面內容的品質