Baylor College of Medicine 位于德克萨斯州的休斯顿市,作为美国联邦赞助的三大测序中心之一的人类基因组测序中心 (Human Genome Sequencing Center,HGSC) 即位于该医学院。心脏和衰老基因组流行病学队列研究 (CHARGE) 项目是 HGSC 参与的一个项目。该项目致力于确定导致衰老和心脏病的基因,来自全球 5 个机构的 200 多位科学家共同参与了该项目。CHARGE 项目是一项正在开展的协作项目,分析美国国家心脏、肺和血液研究所 (NHLBI) 大量队列研究和欧洲类似研究提供的基因样本和表型数据。CHARGE 和 Baylor College of Medicine 正在合作对多名研究受试者进行基因测序,并使用 Baylor 的 Mercury 分析管道处理这些数据,以帮助科学家们更好地了解基因变异在预防和治疗中风和心脏病方面如何发挥作用。Baylor 拥有 20 台测序仪,每月可产出 24T 碱基数据,约 1PB 原始数据。在该研究项目中,目前有 14000 多名受试者。鉴于数据资源的规模,该项目需要创新型数据解决方案。

DNAnexus 为 DNA 测序中心和研究人员提供数据管理、下一代测序数据分析和安全协作服务。DNAnexus 通过一个统一的系统提供服务,该系统可以扩展,以满足其客户独特的学术或商业需求。该统一系统具有一个按需基础设施,用于提供计算和存储服务、生物信息学和云计算支持、安全合规的协作以及许多其他功能。DNAnexus PaaS 解决方案基于 Amazon Web Services (AWS) 而构建,供学术机构、政府研究实验室、生物制药公司和诊断试验提供商使用。

在上个世纪,许多研究关注患者的一生,致力于确定人类如何会出现某些健康问题或患上某些疾病。随着 DNA 测序工具的开发以及大量数据管理功能的改进,CHARGE 项目目前正在重新分析这些研究的结果。全球的 CHARGE 科学家们正在利用这些数据来研究疾病的病因和预防措施。

但是,随着 DNA 测序仪越来越高效,基因组测试越来越普遍,要分析的数据量空前增多。由于 CHARGE 项目上正在分析的数据超过 430TB,仅将数据分发给相关科学家的工作就非常具有挑战性。过去,工作人员需要先将数据硬盘加密,然后通过邮寄方式将硬盘寄送给参与 CHARGE 项目的 200 多位科学家,导致信息分享延迟,还产生了数据安全问题。“将硬盘寄送给这么多人,这是一项艰巨的物流任务。”Baylor 的首席程序员科学家 Narayanan Veeraraghavan 说,“此外,我们必须对数据进行全面加密。如此众多科学家处理如此众多的硬盘,肯定会出现许多故障,因为并不是每个人都能遵守安全指南。”

仅基础设施方面的挑战就很严峻。“我们需要花费几个月的时间来设置基础设施,以便满足数据存储和计算方面的特定需求。”Veeraraghavan 说,“在这几个月中,技术会发展,协议会更改,而且测序平台也会更新,这意味着测序仪可以将其输出增加一倍。因此,在制定计划和评估硬件要求期间,需求也翻番了。” Baylor 还希望科学家们能够在不同操作系统之间共享工具。

“本地计算负担可能会使他们望而却步。”Veeraraghavan 说,“我们必须能够执行大规模操作并存储大量数据。我们需要其他的解决方案,否则 CHARGE 研究的成本将会过于高昂,无法承受。对于我们来说,依靠自身力量来获取我们所需的计算资源是很困难的,或者说是不可能的。

Baylor 需要一个具有成本效益和易于维护的解决方案,以便其能够提供安全、高效的全球合作,不会因为构建物理基础架构而导致延迟。“我们已经有好几个月没有在构建基础设施上投资了,我们需要的是能够高效地、交互式地并且安全地共享数据。”Veeraraghavan 表示,

此外,解决方案必须足够灵活,能够满足临床标准和 HIPAA 的要求。“我们比较所有候选方案,很自然地就被 DNAnexus 和 AWS 云吸引了。”

Baylor 决定与 DNAnexus 合作,DNAnexus 提供基于 API 的 PaaS,支持临床和研究企业高效、安全地将他们的分析管道和数据迁移到 AWS 云中。借助 DNAnexus,其客户能够将他们的专有算法、行业公认的工具和参考资源移植到中,从而创建自定义的工作流。DNAnexus PaaS 完全基于 AWS 而构建,因此,DNAnexus 能够将其系统扩展到 20000 多个并行计算核心、1PB 的存储、数百万核心小时的分析以及在 AWS 云中编排的成千上万个计算任务。AWS 还与 DNAnexus 签订了业务合作协议 (BAA),支持 DNAnexus 在美国和全球范围内提供一流的安全性,并确保其服务符合医疗保健法律的要求。使用 AWS,客户可以构建并运行符合 HIPAA 要求的工作负载。

CHARGE 项目使用 Baylor 的分析管道 Mercury 来处理其数据。Mercury 管道使用测序仪的原始文件,并将数据转换为最终交付结果(即带注释的变异识别格式文件),以识别出可能具有临床意义的突变。科学家在下游执行高级分析,处理其他研究问题。目前,一小组研究人员正在开发工具,用于深入了解每个基因标记的机理,以便他们可以使用预测性和保护性基因方面的新发现对数据进行重新处理。借助 DNAnexus 平台,研究人员可以比较不同的工具并跨地域共享这些工具。

DNAnexus 使用 Amazon Simple Storage Service (Amazon S3) 和 Amazon Glacier 存储超过 1PB 的基因组数据。DNAnexus 创建了一个命令行工具,科学家可以使用该工具将 DNA 数据从测序工具直接上传到云中,这样便无需部署成本高昂的本地存储基础设施。CHARGE 项目在 Amazon Elastic Compute Cloud (Amazon EC2) 上托管 DNA 分析。DNAnexus 开发了一个在 Amazon EC2 上运行的自定义队列系统,用于处理数据处理过程中发生的中断。

为优化成本,DNAnexus 使用 Amazon EC2 预留实例处理其交互服务(如网站、客户前端门户和 DNA 可视化工具)以及后端云和任务管理服务。

DNAnexus.arch

图 1.AWS 云上的 Baylor HGSC 架构

Baylor 和 DNAnexus 按照 AWS 列出的最佳实践,通过控制对 Mercury 管道的访问来保护 CHARGE 数据。“我们处理的信息都是敏感的患者医疗信息。”Veeraraghavan 说,“使用一个管道并控制对该管道的访问,以这种方式来构建环境,可将风险降到最低。” 借助 AWS 严格的安全协议,DNAnexus 能够向其客户提供符合 HIPAA、CLIA 和其他复杂监管措施的一流安全性、合规性以及审核标准。DNAnexus 首席云计算官 Omar Serang 说:“我们能够在安全合规的环境中为需要计算基础设施的超大规模的临床研究提供支持,而我们以往并不能支持这种规模的研究。”

迁移到 AWS 和 DNAnexus 后,Baylor 在 10 天内就完成了其首次分析,比本地基础设施的分析速度提高了 5 倍,并且能够快速共享结果。此次分析使用了 21000 个核心;一个 Amazon EC2 XL 实例有 16 个虚拟核心。“使用 AWS 云,即使处理几百 TB 的数据也可以实现快速协作。”Veeraraghavan 说,“让工作人员在一个集中的区域处理这些数据,不仅减少了带宽,也无需购买和维护大量的计算资源。”

过去,Baylor 必须通过邮寄硬盘来帮助科学家开展协作,而现在已经发生了天翻地覆的变化。通过使用 AWS 和 DNAnexus,Baylor 和 CHARGE 能够使用不同的系统为科学家提供一个共同的环境,以便他们分享分析工具。“任何科学家,无论使用 Mac、Linux 还是 Windows,都可在 DNAnexus 中针对所有 CHARGE 数据运行任何工具。”Veeraraghavan 说。负责 CHARGE 的 DNAnexus 首席科学家 Andrew Carroll 补充说:“利用 AWS 云,您可以比较不同的工具,这样您便会了解哪些工具适合您的项目,哪些不适合。借助 AWS 云上的 DNAnexus,研究人员能够与科学界人士分享他们的研究成果。”

AWS 云的可扩展性能够帮助 CHARGE 科学家们更好地对他们研究的健康问题做出预测。他们还可以确定哪些基因是“保护性”基因,能够保护人类不出现某个健康问题,而且他们可以快速安全地完成此项研究。“这就是您希望使用 AWS 云的原因所在。”Carroll 说,“CHARGE 需要在非常高的峰值负载下在尽可能短的时间内完成任务。使用 AWS 云,DNAnexus 能够基于 AWS 技术灵活地构建自己的 PaaS。我们可以扩展 DNAnexus 系统,使其能够提供近乎无限的计算和数据存储资源。”

最重要的是,使用 DNAnexus 和 AWS,CHARGE 科学家们能够专注于科学研究,而无需关注基础设施。“每次发现数据大量涌入时都需要升级基础设施,而升级需要大量投资,更不用说空间了。”Veeraraghavan 说,“这些类型的计算并不是一次性的,而是呈指数级增长。我们在科学世界探索时,存在着各种各样的限制。但是现在,感谢 AWS 和 DNAnexus,我们可以专注于科学研究,而无需关注基础设施了。”

要详细了解云在基因组学领域的应用,请访问 AWS 基因组学详情页面