使用 Amazon SageMaker 進行基因體第三級分析和機器學習

使用 Amazon SageMaker 進行基因體第三級分析和機器學習,提供了可用於使用 AWS Managed Services 根據基因體資料集建置機器學習模型的參考。我們將第三級分析定義為解釋基因體變體並向其指派意義。這個解決方案為 AWS 中的基因體機器學習提供廣大的平台,並以變體分類為可使用此平台解決的具有科學意義的範例問題。在範例中,我們會在檢查基因體變體時解決特定的競爭臨床定義的挑戰。我們的範例以下列 Kaggle 挑戰為基礎。我們會建立模型來預測 ClinVar 中註釋的變體是否具有衝突分類。可以預測變體是否存在衝突分類的模型有助於協助研究員節省必須用於尋找此類衝突的寶貴時間。

這個解決方案示範 1) 如何自動化基因體機器學習訓練資料集的準備工作、2) 如何開發基因體機器學習模型訓練和部署管道,以及 3) 如何使用測試資料產生預測並評估模型效能。使用者可以將這些步驟重複用於其特定使用案例,或針對特定使用案例編輯這些步驟。

概觀

以下圖表展示了您可以使用 GitHub 上的範例程式碼建置的架構。

使用 Amazon SageMaker 架構進行基因體第三級分析和機器學習

此指引的 setup 堆疊可建立包含 setup.sh 指令碼的 AWS CodeBuild 專案。該指令碼建置其餘 CloudFormation 堆疊,並為 AWS CodeCommit pipe 儲存庫和 code 儲存庫提供原始程式碼。

登陸區域 (zone) 堆疊建立 CodeCommit pipe 儲存庫。登陸區域 (zone) 堆疊完成其設定後,setup.sh 指令碼將原始程式碼推送至 CodeCommit pipe 儲存庫。

AWS CodePipeline code 管道部署程式碼庫 (code) CloudFormation 堆疊。您帳戶中部署的資源包括用於存放物件存取日誌、建置成品和資料的 Amazon Simple Storage Service (Amazon S3) 儲存貯體;用於存放原始程式碼的 CodeCommit 儲存庫;用於建置程式碼成品的 AWS CodeBuild 專案 (例如,用於資料處理的第三方庫);用於自動化資源建置和部署的 CodePipeline 管道 (例如 AWS Glue 任務);以及 Amazon SageMaker Jupyter 筆記本執行個體。範例程式碼包括使用基因體資料快速開發機器學習模型並產生預測所需的資源。

使用 Amazon SageMaker 進行基因體第三級分析和機器學習

1.0 版
上次更新日期:2020 年 8 月
作者:AWS

此 Solutions Implementation 是否對您有幫助?
提供意見回饋 

功能

在 AWS 中提供可擴展環境以進行基因體分析和研究專案

在 AWS 中建立可擴展環境以使用 AWS Managed Services 在基因體資料集上建置機器學習模型。這個解決方案為 AWS 中的基因體機器學習提供廣大的平台,並以變體分類為可使用此平台解決的具有科學意義的範例問題。

充分利用持續整合和持續交付 (CI/CD)

使用 AWS CodeCommit 原始程式碼儲存庫、AWS CodeBuild 專案和 AWS CodePipeline 建置並部署基因體機器學習模型產生管道、部署 Jupyter 筆記本,以及建立擷取、轉換和載入 (ETL) 任務,以產生新的訓練資料集。

充分利用 Infrastructure as Code 最佳實務

使用 Infrastructure as Code (IaC) 原則和最佳實務來快速演進指引。

修改您的基因體分析和研究專案

新增您特有的訓練資料集,以修改指引,從而符合特定需求。CI/CD 管道會追蹤每個變更,以促進變更控制管理、回復和稽核。
建立圖示
自行部署 AWS 解決方案

瀏覽我們的 AWS 解決方案庫,獲取常見架構問題的答案。

進一步了解 
尋找 APN 合作夥伴
尋找 AWS 合作夥伴解決方案

尋找 AWS 合作夥伴以協助您入門。

探索圖示
探索指引

尋找常見使用案例的規範架構圖、範例程式碼與技術內容。

進一步了解