此 AWS 解决方案实施有何用途?
使用 AWS Glue 和 Amazon Athena 的基因组学高级分析和数据湖解决方案可在 AWS 中创建可扩展的环境,以准备用于大规模分析的基因组学数据并针对基因组学数据湖执行交互式查询。该解决方案可以帮助 IT 基础设施架构师、管理员、数据科学家、软件工程师和开发运营专业人士构建、打包和部署用于基因组数据转换的库;用于基因组数据准备和分类的预置数据提取管道;并针对基因组数据湖运行交互式查询。
二级分析的数据输出可能很大且很复杂。例如,变体调用文件 (VCF) 必须转换为大数据优化的文件格式(例如 Parquet),并合并到现有的基因组数据集中。必须使用适当的模式和版本更新数据目录,以便用户可以找到所需的数据并在语义上一致的已定义数据模型中进行操作。注释数据集和表型数据必须经过处理、分类并提取到现有的数据湖中,以构建队列、汇总数据并使用来自注释源的数据丰富结果集。数据治理和细粒度数据访问控制是确保数据安全的必要条件,同时仍为研究和信息学界提供充分的数据访问权限。使用 AWS Glue 和 Amazon Athena 的基因组学第三级分析和数据湖解决方案可简化此流程。
该解决方案提供了一个基因组学数据湖,并使用 AWS Glue ETL 和抓取程序设置基因组学和注释提取管道,以填充 Amazon Simple Storage Service (Amazon S3) 中的基因组学数据湖。该解决方案演示了如何使用 Amazon Athena 在基因组数据湖之上进行数据分析和解释,以及如何在 Jupyter 笔记本中创建药物反应报告。
AWS 解决方案实施概览
下图显示了您可以使用该解决方案实施指南和随附的 AWS CloudFormation 模板自动部署的架构。

使用 AWS Glue 和 Amazon Athena 的基因组学高级分析和数据湖解决方案架构
AWS CloudFormation 模板在您的 AWS 账户中创建了四个 CloudFormation 堆栈,其中包括安装解决方案的 setup 堆栈。其他堆栈包括一个登录区 (zone) 堆栈,其中包含常见解决方案资源和构件;一个部署管道 (pipe) 堆栈,用于定义该解决方案的 CI/CD 管道;以及一个代码库 (code) 堆栈,用于提供 ETL 脚本、作业、抓取程序、数据目录和笔记本资源。
setup 堆栈将创建 AWS CodeBuild 项目,其中包含 setup.sh 脚本。该脚本将创建剩余的 CloudFormation 堆栈,并为 AWS CodeCommit pipe 存储库和 code 存储库提供源代码。
登录区 (zone) 堆栈创建 CodeCommit pipe 存储库。登录区 (zone) 堆栈完成设置后,setup.sh 脚本会将源代码推送到 CodeCommit pipe 存储库。
部署管道 (pipe) 堆栈将创建 CodeCommit code 存储库、Amazon CloudWatch 事件和 CodePipeline code 管道。部署管道 (pipe) 堆栈完成设置后,setup.sh 脚本会将源代码推送到 CodeCommit code 存储库。
CodePipeline (code) 管道将部署代码库 (code) CloudFormation 堆栈。AWS CodePipeline 管道完成设置后,您账户中部署的资源包括 Amazon Simple Storage Service (Amazon S3) 存储桶,用于在数据湖中存储对象访问日志、构建工件和数据;用于源代码的 CodeCommit 存储库;一个用于构建代码构件的 AWS CodeBuild 项目(例如,用于数据处理的第三方库);一个 AWS CodePipeline 管道,用于自动执行资源的构建和部署;AWS Glue 作业、抓取程序和数据目录的示例;以及一个 Amazon SageMaker Jupyter 笔记本实例。
使用 AWS Glue 和 Amazon Athena 的基因组学第三级分析和数据湖
版本 1.0.1
上次更新日期:2020 年 9 月
作者:AWS
预计部署时间:30 分钟