跳至主要内容

AWS 解决方案库

AWS 上的多组学和多模式数据集成和分析的指导

概览

本指导帮助用户为大规模分析准备基因组、临床、突变、表达和成像数据,并对数据湖执行交互式查询。它包括用于快速迭代的基础设施即代码(IaC)自动化、持续集成和持续交付(CI/CD)、用于存储和转换数据的摄取管道,以及用于交互分析的笔记本和控制面板。我们还演示了如何使用 AWS HealthOmics、Amazon Athena 和 Amazon SageMaker 笔记本存储和查询基因组学变体和注释数据。本指南是与 Bioteam合作制定的。

工作原理

架构

准备基因组、临床、突变、表达和成像数据,以便对数据湖进行大规模分析和查询。

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

准备基因组、临床、突变、表达和成像数据,以便对数据湖进行大规模分析和查询。

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Well-Architected 支柱

上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。

本指南使用C odeBu il d和CodePipel ine来构建、打包和部署解决方案中所需的一切,以提取和存储变体调用文件(VCF),并处理来自癌症基因组图集(TCGA)和癌症成像地图集(TCIA)中数据集的多模态和多组学数据。使用完全托管的服务-Amazon Omics 演示了无服务器基因组学数据的摄取和分析。在解决方案 CodeCommit 存储库中进行的代码更改将通过提供的 C odePipeline 部署管道进行部署。

阅读“卓越运营”白皮书

本指南在 IAM 中使用基于角色的访问权限,所有存储桶都启用了加密、私有并禁止公有访问。AWS Glu e 中的数据目录已启用加密,A WS Glu e 写入亚马逊 S3 的所有元数据均已加密。所有角色都定义为最低权限,服务之间的所有通信都保留在客户账户内部。管理员可以控制 Jupyter 笔记本,亚马逊 Omics Variant Stores 的数据和 AWS Glue 目录的数据访问权限完全使用 Lake Formation 进行管理,而 A thena 、SageMak er Notebook 和 QuickS ig ht 的数据访问权限则通过提供的 IAM 角色进行管理。

阅读《安全性》白皮书

AWS Glu e、亚马逊 S3 、亚马逊 Omics 和 A thena 都是无服务器的,将随着数据量的增加而扩展数据访问性能。AWS Gl ue 预置、配置和扩展运行数据集成任务所需的资源。Athena 是无服务器的,因此您无需设置和管理任何服务器或数据仓库即可快速查询数据。QuickSight SPICE 内存存储将把你的数据探索扩展到成千上万的用户。 

阅读《可靠性》白皮书

使用无服务器技术,您只需预调配自己使用的准确资源即可。每个 AWS Glu e 任务将根据需要预置一个 Spark 集群,以转换数据并在完成后取消资源配置。如果您选择添加新的 TCGA 数据集,则可以添加新的 AWS Glue 任务和 AWS Gl u e 爬虫,它们还将按需预览资源。Athena 会自动并行执行查询,因此大多数结果会在几秒钟内返回。 亚马逊 Omics 通过将文件转换为 Apache Parquet 来大规模优化变体查询性能。

阅读《性能效率》白皮书

使用可按需扩展的无服务器技术,您只需为自己使用的资源付费。为了进一步优化成本,您可以在不使用 SageMaker 的笔记本电脑环境时将其停止。QuickSight 仪表板还通过单独的 CloudFormation 模板进行部署,因此,如果您不打算使用可视化仪表板,可以选择不部署它以节省成本。 亚马逊 Omics 大规模优化变体数据存储成本。查询成本由 Athena 扫描的数据量决定,可以通过相应地编写查询来进行优化。

阅读《成本优化》白皮书

通过密集地使用托管服务和动态扩展,您可以最大限度地降低后台服务的环境影响。可持续性的关键组件是最大限度地使用笔记本服务器实例。不使用笔记本电脑环境时,应停止运行。 

阅读《可持续性》白皮书

其他注意事项

数据转换

该架构选择了 AWS Glue 来进行提取、转换和加载 (ETL),以在解决方案中提取、准备和编目数据集以提高查询和性能。您可以根据需要添加新的 AWS Glue 任务 AWS Glue Crawler s 来摄取新的癌症基因组图集 (TCGA) 和癌症图像地图集 (TCIA) 数据集。您还可以添加新作业和爬网程序,以提取、准备自己的私有数据集并编制目录。

数据分析

该架构选择了 SageMaker 笔记本电脑来提供用于分析的Jupyter笔记本电脑环境。您可以向现有环境添加新笔记本,也可以创建新环境。如果你更喜欢 RStudio 而不是 Jupyter 笔记本电脑,你可以在亚马逊 SageMaker 上使用 RStudio

数据可视化

该架构选择 QuickSight 为数据可视化和探索提供交互式仪表板。QuickSight 仪表板的设置是通过单独的 CloudFormation 模板进行的,因此,如果您不打算使用该仪表板,则无需进行配置。在 QuickSight 中,您可以创建自己的分析,浏览其他过滤器或可视化效果,并与同事共享数据集和分析。

自信地进行部署

本存储库在 AWS 创建可扩展的环境,为大规模分析准备基因组、临床、突变、表达和成像数据,并对数据湖执行交互式查询。该解决方案演示了如何 1) 使用 HealthOmics 变体存储和注释存储来存储基因组变异数据和注释数据,2) 为多模态数据准备和编目配置无服务器数据摄取管道,3) 通过交互式界面可视化和浏览临床数据,以及 4) 使用亚马逊 Athena 和 Amazon SageMaker 对多模态数据湖运行交互式分析查询。

提供了在 AWS 账户中进行实验和使用的详细指南。构建指南的每个阶段(包括部署、使用和清理)都将被检查,以便为部署做好准备。

打开实施指南

示例代码为起点。它经过行业验证,是规范性但不是决定性的,可以帮助您开始。

在 AWS 控制台中部署示例代码

GitHub 上的开放示例代码

相关内容

指南

在 AWS 上使用健康 AI 和 ML 服务进行多模态数据分析的指南

本指南演示了如何建立端到端框架来分析多模式医疗保健和生命科学(HCLS)数据。

了解更多

贡献者

BioTeam 是一家生命科学 IT 咨询公司,热衷于通过消除科学家希望利用数据实现的目标与他们能够实现的目标之间的差距,来加快科学发现的速度。自从 2002 年涉足科学、数据和技术交融的领域以来,BioTeam 已经具备了跨学科能力来应用战略、先进技术和 IT 服务,从而解决最具挑战性的研究、技术和运营问题。我们擅长将科学需求转换成强大的科学数据生态系统,对于自身与从生物科技初创公司到最大的全球制药公司、从联邦政府机构到学术研究机构的生命科学研究领域中的各种领袖开展合作的能力也深感自豪。
Logo for BioTeam featuring the tagline 'Accelerate Science' with stylized horizontal bars in blue and teal tones.

免责声明

示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。

找到今天要查找的内容了吗?

请提供您的意见,以便帮助我们提高页面内容的质量