由 Peter Tonellato 博士带领的哈佛医学院生物医学信息中心的个性化医学 (LPM) 团队利用高通量测序和生物医学数据收集技术的强大功能,以及 Amazon Web Services 的灵活性,在创纪录的时间内开发出创新的全基因组分析测试模型。“通过将我们的生物医学计算方法和 AWS 相结合,我们可以集中时间和精力进行模拟开发来快速得到结果,而不用担心技术,” Tonellato 说。“如果没有 AWS 的优势,我们肯定不会发展到现在这种程度。”

Tonellato 的实验室通过建立模型和模拟来评估新基因测试的临床应用价值,使其专注于个性化医疗,即基于个人基因特性的预防保健。

其他项目包括模拟大型患者群体,以在临床试验模拟和预测中提供帮助。为了克服难以找到用于建模的足够的真实病人数据问题,LPM 创建了病人化身 – 字面意思为“虚拟”病人。该实验室可以为不同的基因测试创建不同的化身集合,然后基于医院人群的特点复制大量化身。Tonellato 需要找到一种有效的方式来操作许多化身,有时在一次多达 1 亿个。他说:“除了能够处理大量的数据,我希望设计能满足下列要求的系统,博士后研究人员可以在其中研究遗传风险情况,确定适当的模拟和分析来创建化身,然后快速构建用于运行模拟的 Web 应用程序,而不是把时间花在解决计算技术故障上。”

2006 年,Tonellato 借助云计算来应对复杂和充满变数的计算需求。他说: “我评估了多个备选方案,但没有找到像 Amazon Web Services 一样灵活、稳健的方案。”Tonellato 之前曾经构建过数据中心,但无法承担安装服务器和编写代码所需的时间。他决定进行一项测试,看看他的团队最快能用多长时间将一系列自定义Amazon 系统映像 (AMI) 聚合在一起,以反映适用于研究人员的 Web 应用程序的最佳开发环境。

现在,Tonellato 实验室已扩大工作计划,将竞价型实例集成到他们的工作流中,以便能够更充分地利用资助。据 Tonellato 所说:“运行 Amazon Elastic Compute Cloud (Amazon EC2) 集群期间,我们利用竞价型实例来分析整个基因组。使用竞价型实例时,我们可能以更低的成本运行更多工作程序节点,所以它为我们节省了大量时间和成本。因为充分利用了这些节约,我们的工程操作仅需一天,节省了约 50% 的成本。Tonellato 的实验室利用麻省理工学院的 StarCluster 工具,该工具具有用于在竞价型实例上管理 Oracle 网格引擎集群的内置功能。Tonellato 实验室的程序员 Erik Gafni 将 StarCluster 集成到了我们的工作流中。Gafni 表示: “使用 StarCluster 后,在 10 分钟内配置、启动并开始使用运行的竞价型集群非常轻松,令人难以置信。”

此外,LPM 认识到人们需要有关如何在学术环境下有效使用云计算的已发布的资源,于是便在 PLoS Computational Biology 上发表了一份教育性读本来满足此类需求。“我们相信,这篇文章清楚地说明了一个学术实验室如何有效地使用 AWS 管理其计算需求。它还向我们展示了应该如何去思考与 AWS 成本和计算资源相关的计算问题,” LPM 的主要作者和高级研究员 Vincent Fusaro 这样说道。

“AWS 解决方案不仅稳定、强大、灵活,而且成本低,” Tonellato 评论道。“它拥有一切值得推荐的要素。”

Tonellato 在 Amazon EC2 上运行其模拟,为客户提供了在云中的可扩展计算容量。Amazon EC2 旨在使开发人员更轻松地进行 Web 级的计算,使其可以在几分钟内在云中创建和调配计算容量。

Tonellato 的实验室对他们的 AWS 解决方案感到非常兴奋。Tonellato 解释道: “提供给医生和医院的基因测试数量一直不断增加,而且它们可能非常昂贵。我们感兴趣的是确定哪些测试将带来更好的病人护理和更好的结果。”他补充说: “我们相信我们的模型可以大大减少通常用于识别测试、协议和试验的时间,值得在 FDA 审核和临床使用中大力推行。”

要详细了解 AWS 如何为您的大数据需求提供帮助,请访问我们的大数据详情页面

要详细了解云在基因组学领域的应用,请访问 AWS 基因组学详情页面