使用 Amazon SageMaker 進行基因體第三級分析和機器學習,提供了可用於使用 AWS Managed Services 根據基因體資料集建置機器學習模型的參考。我們將第三級分析定義為解釋基因體變體並向其指派意義。這個解決方案為 AWS 中的基因體機器學習提供廣大的平台,並以變體分類為可使用此平台解決的具有科學意義的範例問題。在範例中,我們會在檢查基因體變體時解決特定的競爭臨床定義的挑戰。我們的範例以下列 Kaggle 挑戰為基礎。我們會建立模型來預測 ClinVar 中註釋的變體是否具有衝突分類。可以預測變體是否存在衝突分類的模型有助於協助研究員節省必須用於尋找此類衝突的寶貴時間。
這個解決方案示範 1) 如何自動化基因體機器學習訓練資料集的準備工作、2) 如何開發基因體機器學習模型訓練和部署管道,以及 3) 如何使用測試資料產生預測並評估模型效能。使用者可以將這些步驟重複用於其特定使用案例,或針對特定使用案例編輯這些步驟。
概觀
以下圖表展示了您可以使用 GitHub 上的範例程式碼建置的架構。

使用 Amazon SageMaker 架構進行基因體第三級分析和機器學習
此指引的 setup 堆疊可建立包含 setup.sh 指令碼的 AWS CodeBuild 專案。該指令碼建置其餘 CloudFormation 堆疊,並為 AWS CodeCommit pipe 儲存庫和 code 儲存庫提供原始程式碼。
登陸區域 (zone) 堆疊建立 CodeCommit pipe 儲存庫。登陸區域 (zone) 堆疊完成其設定後,setup.sh 指令碼將原始程式碼推送至 CodeCommit pipe 儲存庫。
AWS CodePipeline code 管道部署程式碼庫 (code) CloudFormation 堆疊。您帳戶中部署的資源包括用於存放物件存取日誌、建置成品和資料的 Amazon Simple Storage Service (Amazon S3) 儲存貯體;用於存放原始程式碼的 CodeCommit 儲存庫;用於建置程式碼成品的 AWS CodeBuild 專案 (例如,用於資料處理的第三方庫);用於自動化資源建置和部署的 CodePipeline 管道 (例如 AWS Glue 任務);以及 Amazon SageMaker Jupyter 筆記本執行個體。範例程式碼包括使用基因體資料快速開發機器學習模型並產生預測所需的資源。