使用 Amazon SageMaker 的基因组学第三级分析和机器学习

使用 Amazon SageMaker 的基因组学第三级分析和机器学习提供了参考,可用于通过 AWS Managed Services 在基因组数据集上构建机器学习模型。我们将第三级分析定义为对基因组变异的解释并赋予其意义。此解决方案为 AWS 中的基因组机器学习提供了一个广阔的平台,以变异分类为例,利用该平台可以解决具有科学意义的问题。在这个例子中,我们解决了研究基因组变异时临床定义竞争的具体挑战。我们的例子基于以下 Kaggle 挑战。我们创建了一个模型来预测 ClinVar 中注释的变异是否存在分类冲突。能够预测变异是否存在分类冲突的模型可以节省研究人员用于寻找此类冲突的宝贵时间。

该解决方案演示了如何 1) 自动准备基因组机器学习训练数据集,2) 开发基因组机器学习模型训练和部署管道,以及 3) 使用测试数据生成预测并评估模型性能。这些步骤可以由用户针对其特定的用例进行重复或编辑。

概览

下图展示了您可以使用 GitHub 上的示例代码构建的架构。

使用 Amazon SageMaker 的基因组学第三级分析和机器学习架构

该指南的 setup 堆栈将创建 AWS CodeBuild 项目,其中包含 setup.sh 脚本。该脚本将创建剩余的 CloudFormation 堆栈,并为 AWS CodeCommit pipe 存储库和 code 存储库提供源代码。

登录区(zone)堆栈创建 CodeCommit pipe 存储库。登录区 (zone) 堆栈完成设置后,setup.sh 脚本会将源代码推送到 CodeCommit pipe 存储库。

AWS CodePipeline code 管道将部署代码库(code)CloudFormation 堆栈。您账户中部署的资源包括 Amazon Simple Storage Service(Amazon S3)存储桶,用于存储对象访问日志、构建构件和数据;用于源代码的 CodeCommit 存储库;一个用于构建代码构件的 AWS CodeBuild 项目(例如,用于数据处理的第三方库);一个 CodePipeline 管道,用于自动执行资源的构建和部署;AWS Glue 作业以及一个 Amazon SageMaker Jupyter 笔记本实例。示例代码包括使用基因组学数据快速开发机器学习模型并生成预测所需的资源。

使用 Amazon SageMaker 的基因组学第三级分析和机器学习

版本 1.0
上次更新日期:2020 年 8 月
作者:AWS

此解决方案实施对您有帮助吗?
提供反馈 

功能

在 AWS 中提供可扩展环境,以运行基因组学分析和研究项目

在 AWS 中创建可扩展环境,以利用 AWS Managed Services 在基因组数据集上建立机器学习模型。此解决方案为 AWS 中的基因组机器学习提供了一个广阔的平台,以变异分类为例,利用该平台可以解决具有科学意义的问题。

利用持续集成和持续交付 (CI/CD)

使用 AWS CodeCommit 源代码存储库、AWS CodeBuild 项目和 AWS CodePipeline 构建和部署基因组学机器学习模型生成管道,部署 Jupyter 笔记本,并创建提取、转换和加载 (ETL) 任务以生成新的训练数据集。

利用基础设施即代码最佳实践

利用基础设施即代码 (IaC) 原则和最佳实践快速发展本指南。

修改您的基因组学分析和研究项目

通过添加您独特的训练数据集,修改本指南以满足您的特定需求。CI/CD 管道将跟踪每个变更,从而帮助进行变更控制管理、回滚和审计。
构建图标
自己部署 AWS 解决方案

浏览我们的 AWS 解决方案库,以获取常见架构问题的答案。

了解更多 
查找 APN 合作伙伴
查找 AWS 合作伙伴解决方案

查找 AWS 合作伙伴,以帮助您入门。

探索图标
探索指导

查找常见使用案例的规范性架构图、示例代码和技术内容。

了解更多