使用 Amazon SageMaker 的基因组学第三级分析和机器学习提供了参考,可用于通过 AWS Managed Services 在基因组数据集上构建机器学习模型。我们将第三级分析定义为对基因组变异的解释并赋予其意义。此解决方案为 AWS 中的基因组机器学习提供了一个广阔的平台,以变异分类为例,利用该平台可以解决具有科学意义的问题。在这个例子中,我们解决了研究基因组变异时临床定义竞争的具体挑战。我们的例子基于以下 Kaggle 挑战。我们创建了一个模型来预测 ClinVar 中注释的变异是否存在分类冲突。能够预测变异是否存在分类冲突的模型可以节省研究人员用于寻找此类冲突的宝贵时间。
该解决方案演示了如何 1) 自动准备基因组机器学习训练数据集,2) 开发基因组机器学习模型训练和部署管道,以及 3) 使用测试数据生成预测并评估模型性能。这些步骤可以由用户针对其特定的用例进行重复或编辑。
概览
下图展示了您可以使用 GitHub 上的示例代码构建的架构。

使用 Amazon SageMaker 的基因组学第三级分析和机器学习架构
该指南的 setup 堆栈将创建 AWS CodeBuild 项目,其中包含 setup.sh 脚本。该脚本将创建剩余的 CloudFormation 堆栈,并为 AWS CodeCommit pipe 存储库和 code 存储库提供源代码。
登录区(zone)堆栈创建 CodeCommit pipe 存储库。登录区 (zone) 堆栈完成设置后,setup.sh 脚本会将源代码推送到 CodeCommit pipe 存储库。
AWS CodePipeline code 管道将部署代码库(code)CloudFormation 堆栈。您账户中部署的资源包括 Amazon Simple Storage Service(Amazon S3)存储桶,用于存储对象访问日志、构建构件和数据;用于源代码的 CodeCommit 存储库;一个用于构建代码构件的 AWS CodeBuild 项目(例如,用于数据处理的第三方库);一个 CodePipeline 管道,用于自动执行资源的构建和部署;AWS Glue 作业以及一个 Amazon SageMaker Jupyter 笔记本实例。示例代码包括使用基因组学数据快速开发机器学习模型并生成预测所需的资源。