本指导帮助用户为大规模分析准备基因组、临床、突变、表达和成像数据,并对数据湖执行交互式查询。它包括代码自动化的基础设施、转换数据的输入管道,以及用于交互分析的笔记本和仪表板。本指导在 Bioteam 的协助下建立。

架构图

Well-Architected 支柱


其他注意事项

数据转换

本架构选择 AWS Glue 作为在查询和性能分析解决方案中提取、准备数据集和编制目录所需的提取、转换、加载(ETL)工具。您可以添加新 AWS Glue 作业Glue 爬网程序,以根据需要添加新的癌症基因组图谱(TCGA)和癌症成像图谱(TCIA)数据集。您还可以添加新作业和爬网程序,以提取、准备自己的私有数据集并编制目录。

数据分析

本架构选择 Amazon SageMaker Notebooks 为分析提供 Jupyter notebook 环境。您可以向现有环境添加新笔记本,也可以创建新环境。如果您首选 RStudio 而非 Jupyter notebook,则可以使用 RStudio on Amazon SageMaker

数据可视化

本架构选择 Amazon QuickSight 为数据可视化和探查提供交互式控制面板。QuickSight 控制面板通过单独的 AWS CloudFormation 模板设置,因此如果您不打算使用该控制面板,则不必预置它。在 QuickSight 中,您可以创建自己的分析、探索其他筛选条件或可视化,并与同事共享数据集和分析。

使用说明

本存储库在 AWS 创建可扩展的环境,为大规模分析准备基因组、临床、突变、表达和成像数据,并对数据湖执行交互式查询。该解决方案演示了如何 1) 构建、打包和部署用于基因组学数据转换的存储库,2) 预置无服务器数据摄取管道以进行多模式数据准备和目录编制,3) 通过交互式界面可视化和探查临床数据,4) 对多模式数据湖运行交互分析查询。

贡献者

BioTeam 是一家生命科学 IT 咨询公司,热衷于通过消除科学家希望利用数据实现的目标与他们能够实现的目标之间的差距,来加快科学发现的速度。自从 2002 年涉足科学、数据和技术交融的领域以来,BioTeam 已经具备了跨学科能力来应用战略、先进技术和 IT 服务,从而解决最具挑战性的研究、技术和运营问题。我们擅长将科学需求转换成强大的科学数据生态系统,对于自身与从生物科技初创公司到最大的全球制药公司、从联邦政府机构到学术研究机构的生命科学研究领域中的各种领袖开展合作的能力也深感自豪。

免责声明

示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。