此 AWS 解决方案实施有何用途?

使用 AWS Glue 和 Amazon Athena 的基因组学高级分析和数据湖解决方案可在 AWS 中创建可扩展的环境,以准备用于大规模分析的基因组学数据并针对基因组学数据湖执行交互式查询。该解决方案可以帮助 IT 基础设施架构师、管理员、数据科学家、软件工程师和开发运营专业人士构建、打包和部署用于基因组数据转换的库;用于基因组数据准备和分类的预置数据提取管道;并针对基因组数据湖运行交互式查询。

二级分析的数据输出可能很大且很复杂。例如,变体调用文件 (VCF) 必须转换为大数据优化的文件格式(例如 Parquet),并合并到现有的基因组数据集中。必须使用适当的模式和版本更新数据目录,以便用户可以找到所需的数据并在语义上一致的已定义数据模型中进行操作。注释数据集和表型数据必须经过处理、分类并提取到现有的数据湖中,以构建队列、汇总数据并使用来自注释源的数据丰富结果集。数据治理和细粒度数据访问控制是确保数据安全的必要条件,同时仍为研究和信息学界提供充分的数据访问权限。使用 AWS Glue 和 Amazon Athena 的基因组学第三级分析和数据湖解决方案可简化此流程。

该解决方案提供了一个基因组学数据湖,并使用 AWS Glue ETL 和抓取程序设置基因组学和注释提取管道,以填充 Amazon Simple Storage Service (Amazon S3) 中的基因组学数据湖。该解决方案演示了如何使用 Amazon Athena 在基因组数据湖之上进行数据分析和解释,以及如何在 Jupyter 笔记本中创建药物反应报告。

AWS 解决方案实施概览

下图显示了您可以使用该解决方案实施指南和随附的 AWS CloudFormation 模板自动部署的架构。

使用 AWS Glue 和 Amazon Athena 的基因组学第三级分析和数据湖 | 架构图
 单击可放大

使用 AWS Glue 和 Amazon Athena 的基因组学高级分析和数据湖解决方案架构

AWS CloudFormation 模板在您的 AWS 账户中创建了四个 CloudFormation 堆栈,其中包括安装解决方案的 setup 堆栈。其他堆栈包括一个登录区 (zone) 堆栈,其中包含常见解决方案资源和构件;一个部署管道 (pipe) 堆栈,用于定义该解决方案的 CI/CD 管道;以及一个代码库 (code) 堆栈,用于提供 ETL 脚本、作业、抓取程序、数据目录和笔记本资源。

setup 堆栈将创建 AWS CodeBuild 项目,其中包含 setup.sh 脚本。该脚本将创建剩余的 CloudFormation 堆栈,并为 AWS CodeCommit pipe 存储库和 code 存储库提供源代码。

登录区 (zone) 堆栈创建 CodeCommit pipe 存储库。登录区 (zone) 堆栈完成设置后,setup.sh 脚本会将源代码推送到 CodeCommit pipe 存储库。

部署管道 (pipe) 堆栈将创建 CodeCommit code 存储库、Amazon CloudWatch 事件和 CodePipeline code 管道。部署管道 (pipe) 堆栈完成设置后,setup.sh 脚本会将源代码推送到 CodeCommit code 存储库。

CodePipeline (code) 管道将部署代码库 (code) CloudFormation 堆栈。AWS CodePipeline 管道完成设置后,您账户中部署的资源包括 Amazon Simple Storage Service (Amazon S3) 存储桶,用于在数据湖中存储对象访问日志、构建工件和数据;用于源代码的 CodeCommit 存储库;一个用于构建代码构件的 AWS CodeBuild 项目(例如,用于数据处理的第三方库);一个 AWS CodePipeline 管道,用于自动执行资源的构建和部署;AWS Glue 作业、抓取程序和数据目录的示例;以及一个 Amazon SageMaker Jupyter 笔记本实例。 

使用 AWS Glue 和 Amazon Athena 的基因组学第三级分析和数据湖

版本 1.0.1
上次更新日期:2020 年 9 月
作者:AWS

预计部署时间:30 分钟

使用下面的按钮订阅解决方案更新。

注意:要订阅 RSS 更新,您必须为您正在使用的浏览器启用 RSS 插件。 

功能

在 AWS 中提供可扩展环境以进行大规模基因组分析

在 AWS 中创建可扩展的环境,以准备用于大规模分析的基因组学数据并针对基因组学数据湖执行交互式查询。

利用基础设施即代码最佳实践

利用基础设施即代码 (IaC) 原则和最佳实践快速发展解决方案。

利用持续集成和持续交付 (CI/CD)

使用 AWS CodeCommit 源代码存储库和 AWS CodePipeline 来生成更新并将其部署到数据准备作业和抓取程序、数据湖配置和 Jupyter 笔记本。

修改您的基因组数据准备流程和 Jupyter 笔记本以进行分析

修改解决方案以满足您的特定需求,例如,通过添加新的 AWS Glue 作业和抓取程序以及新的 Jupyter 笔记本进行数据分析。CI/CD 管道将跟踪每个更高,从而帮助进行变更控制管理、回滚和审计。
构建图标
自己部署解决方案

浏览我们的 AWS 解决方案实施库,以获取常见架构问题的答案。

了解更多 
查找 APN 合作伙伴
查找 APN 合作伙伴

寻找 AWS 认证的咨询和技术合作伙伴,以帮助您入门。

了解更多 
探索图标
了解解决方案咨询服务

浏览我们的咨询服务组合,以获取经过 AWS 审查的解决方案部署帮助。

了解更多