西奈山伊坎医学院坐落于纽约州的纽约市,在医疗与科学训练、生物医学研究和患者护理领域是国际公认的领导者。该机构致力于拓展生物医学知识、提供专业临床护理并造福于社会。伊坎医学院与西奈山医院有着紧密的合作关系,服务于全球最具多样性且最复杂的病患群体之一。

伊坎医学院的研究人员和医生正努力破解乳腺癌和卵巢癌的基因奥秘。西奈山的 John A. Martignetti 和 Peter R. Dottino 医生以及 Station X 的协作人员正在挖掘由癌症基因组图谱 (TCGA) 协作组生成的 2000 多个乳腺和卵巢肿瘤以及胚系 DNA 序列。TCGA 是一格综合、多方协调的项目,通过包括大规模基因组测序在内的基因分析技术应用程序,帮助我们快速了解癌症的分子基础。TCGA 是美国国家癌症研究所 (NCI) 和美国国家人类基因组研究所 (NHGRI) 共同努力下的产物。美国卫生及公共服务部下的国立卫生研究院共有 27 家机构和中心,上述两家研究所就隶属其中。

由于科学家需要分析 100TB 以上的数据、提出新的假说并重新分析数据,因此需要相当强大的计算能力,这是一个非常重要的问题。在拥有存在患乳腺癌/卵巢癌风险的遗传基因的所有女姓中,会出现 BRCA1/2 基因胚系突变的约占一半。研究人员试图找出未携带 BRCA1/2 基因突变的女姓所缺少的基因链。

在 Station X 的协助下,Martignetti 和 Dottino 医生能够通过解决方案提供商的帮助,使用强大、安全的分析平台来开展工作。Station X 开发了 GenePool™。它是一个基因组软件平台,供科学家和临床医生处理早期研究和临床应用中的人类基因组数据。

从 TB 级的基因组数据中挖掘信息并确保信息的安全性,这需要一个灵活的具备大数据存储和严格访问控制功能的高性能平台。这显然是云计算的工作。

Amazon Web Services (AWS) 是 Station X 的基因组平台 GenePool 的基础,它可以动态扩展,在数分钟内完成对成千上万对基因组的分析工作。Station X 产品副总裁 Sandeep Sanga 表示:“AWS 是一个构建软件环境的天然场所。我们在 AWS 上建立了 GenePool,让研究人员能够对海量数据进行管理和分析。我们之所以选择 AWS,是因为其提供的服务数量非常有竞争力。”AWS 让 Station X 能够专注于设计 GenePool 平台,以帮助科研人员迅速、安全地理解其测序数据。

对于西奈山研究人员来说,保护患者数据安全是一项很重要的工作。“维护患者尤其是生成的巨量数据的机密性,是我们工作的重中之重。”Martignetti 说,“这并不是一件小事。不过借助 AWS 和 GenePool,我们达到了机密性要求的标准。”“借助 AWS,Station X 能够预先批准研究人员访问癌症基因组图谱的控制访问数据,从而使授权用户能够计算并理解乳腺癌或卵巢癌患者的体细胞和胚系突变。”Sanga 说。

西奈山使用 AWS Identity and Access Management (IAM) 进行用户身份验证,进而允许使用 AWS 访问控制列表 (ACL) 对账户进行访问控制和管理,以便对用户和证书进行安全集中管理。Amazon Simple Notification Service (Amazon SNS) 和 Amazon Simple Email Service (Amazon SES) 可以为需要通知和提醒的管理员和最终用户提供出站消息传递服务。

Elastic Load Balancing 可以帮助 Station X 确保其 Amazon VPC 环境中拥有弹性、安全的可扩展 Web 和 API 架构,从而将数据存储和中间层从暴露于 Internet 的网络中隔离出来。“通过将我们的数据存储和中间层从暴露于 Internet 的网络中隔离出来,可以为所有服务器保密,确保从根本上减少安全措施占用空间。”Sanga 说。

西奈山研究人员使用 AWS 云管理存储在 Amazon Simple Storage Service (Amazon S3) 以及 Amazon Glacier 中的海量基因组数据并从中提取有用信息。

Station X 将 Amazon Elastic Block Store (Amazon EBS) 存储应用于重要的高价值数据,以此实现了一个灵活且高性能的存储系统,可提供大量预计算数据以便实时进行基因组分析。

Amazon Elastic Compute Cloud (Amazon EC2) 帮助实现了 GenePool 的内置统计模型、虚拟筛选功能、与基因组和临床注解数据库的充分集成,以及通过 RESTful Web 服务集成的支持。“借助 Amazon EC2 的灵活特性,我们能够以经济高效和动态可扩展的方式执行大量数据处理和分析。”Sanga 说。西奈山使用专用 Amazon S3 存储来确保其来源于患者的基因组数据以安全的方式存储并为 GenePool 中的分析做好准备。图 1 展示了西奈山的架构。

mount-sinai-arch-diag

图 1.西奈山研究架构

为确保系统的高效运行,GenePool 使用 Amazon CloudWatch 进行监控。Amazon ElastiCache 提供了一种集中式缓存机制,支持快速返回大型数据集的分析结果。“多亏了我们在 AWS 上构建的基因组软件平台,科学家才能够在几分钟或几秒内回答重要问题。”Sanga 说。

借助 AWS 和 GenePool,Martignetti 和 Dottino 医生现在可以快速从癌症基因组图谱项目中挖掘成千上万条患者记录,并从多个符合科学假设的新型候选基因中识别出基因畸变。通过将这些候选基因与其他基因组数据进行相互对照,Martignetti 和 Dottino 医生能够完善遗传性乳腺癌和卵巢癌新型潜在标志的候选基因列表。

“在使用 AWS Cloud 之前,我们没有办法借助外部协作人员分析如此大的数据集。”Martignetti 说,“我们不可能按照有意义的方式筛选、分析以及重新筛选数据。而所有的这些操作对于寻找缺失链的工作来讲都非常关键。”

“基于 AWS 构建 GenePool 使 Station X 能够存储转译和临床基因组客户的数据集。”Sanga 说,“借助 AWS,我们获得了重要的竞争优势:快速数据访问、充足的存储和强大的计算能力。”他补充道,“对于此类研究项目,我们永远不可能完成。总是有更多的数据需要分析。即便我们帮助研究人员得出科学结论,也仍然有更多东西需要学习。借助 AWS,我们可以做好充分的准备来迎接挑战。”

如果不能在 AWS 云上以安全方式运行这种分析,西奈山的医生将无法进一步展开研究。“借助 AWS,我们能够以安全且经济高效的方式存储源文件,并保证显著的持久性和可访问性。如果没有 AWS,我们将无法展开研究。”Martignetti 说,“不过有了 AWS 和 GenePool 的帮助,我们希望发现一些基因突变,能证明它们是加大部分女性患此类癌症的风险的缺失链。”

要详细了解云在基因组学领域的应用,请访问我们的 AWS 基因组学详情页面