概述
Caris Life Sciences(Caris)的创立基于一个理念:精准医疗是癌症治疗的未来。该公司每月对数千份患者样本进行分子分析,以帮助医生为患者提供最佳治疗方案。
为了推动下一代疗法的研究,Caris 希望重新处理超过 400000 个患者 RNA 测序数据样本。但是,该公司现有的计算流程并未经过优化,无法分析大型数据集。该公司使用 Amazon Web Services(AWS)分析基因组数据已有数年,因此依靠 AWS 来开发新的分析流程。Caris 利用高性能计算(HPC)开发了一个可扩展、具有成本效益且针对研究优化的流程,HPC 通过托管的 HPC 服务和 AWS 上几乎无限的基础设施帮助加速创新。
关于 Caris Life Sciences
Caris Life Sciences 成立于 2008 年,其目标是利用数据驱动的洞察实现精准医疗的潜力。它构建了庞大的精准医疗工具组合,已为全球超过 50 万名癌症患者提供过帮助。
商机 | 为 Caris Life Sciences 创建 RNA 测序流程
Caris 成立于 2008 年,其目标是利用数据驱动的洞察实现精准医疗的潜力。多年来,该公司一直在开发精准诊断测试和靶向癌症疗法。Caris 现在希望重新处理其内部和外部数据以用于研究,帮助开发下一代癌症治疗方案。该公司选择使用 RNA 数据进行再分析。Caris 计算生物学总监 Noah Spies 表示:“RNA 数据是我们使用的最具定量价值的数据。我们希望尽可能细微地区分生物信号。”
Caris 拥有一个现有的临床计算流程,每天收集和处理数百个样本的基因组数据。但是,该流程是针对临床使用优化的,并不适用于对公司的大量数据进行再分析。此外,Caris 需要一个单一版本的流程来为研究产出可用的结果,但该流程每隔几周就会更改一次。
Spies 表示:“我们希望利用 AWS 非常丰富的功能来记录流经该流程和从该流程输出的每一个数据。”
为了产生尽可能好的结果,Caris 需要一个经过优化的流程来处理大量数据。该公司利用行业最佳实践和公开工具创建了一个 Nextflow 流程,该流程针对其 RNA 测序数据的再分析进行了优化。“我们希望确保与我们共享数据的社区能够理解和接受该流程,”Caris 公司副总裁 Nico Stransky 说。
解决方案 | 使用 AWS Batch 处理 400000 个样本
在流程框架方面,该公司实施了 AWS HealthOmics,助力将基因组、转录组和其他组学数据转化为洞察。Caris 软件与数据工程高级总监 Greg Desmarais 表示:“因为 AWS HealthOmics 使用了像 Nextflow 这样的标准行业技术,所以对我们来说,将自己的 Nextflow 流程与该服务一起使用只是简单的过渡。”该流程部署在 AWS Batch 上,后者可对机器学习模型训练、模拟和分析进行任何规模的批处理。
AWS Batch 在 Nextflow 下无缝运行,从 AWS HealthOmics 提取原始数据并分多个步骤进行处理。每一步执行后,数据被转移到 Amazon Simple Storage Service(Amazon S3)(该服务提供旨在检索任意数量数据的对象存储功能),而 AWS Batch 则利用每一步的数据继续进行处理。中间步骤的文件从存储中清除,最终输出数据存储在 Amazon S3 中。Desmarais 表示:“AWS Batch 的使用实现了极高的稳定性和可扩展性。我们依靠 AWS Batch 环境,一次运行处理超过 400000 个样本,并且具备扩展到数百万个样本的空间。”
实施 AWS Batch 使该公司能够处理其庞大的数据集,并能根据需要扩展 RNA 测序流程。传统的虚拟机会一直存续到一系列作业完成,导致资源消耗成本不理想。但是,AWS Batch 可以预置集群并根据需要纵向扩展和收缩,从而提供一个动态、灵活、基于容器的基础设施。该解决方案的可扩展性也有助于成本管理:公司在不需要计算资源时无需为之付费 – 这是一项关键需求,因为分析样本的成本高达数万美元。AWS Batch 的智能分配策略有助于为每个作业调整实例规模,这是该服务的一个差异化优势。这种对实例规模的调整使得 Caris 能够使用 Amazon Elastic Compute Cloud(Amazon EC2)竞价型实例来运行容错工作负载,与按需价格相比,折扣高达 90%。
为了优化性能,Caris 实施了逐步扩展策略。它从每个批次 100 个样本开始,逐步增加到并行运行 1000 个样本。事实证明,这种有条不紊的方法很有效:在公司的初始测试运行中,它在 10 小时内处理了 10000 多个样本。
新样本传入后,将被添加到数据集中。Spies 表示:“在持续运行流程的过程中,能够比较和理解之前所做的工作非常重要。而这正是临床流程中缺失的。”
成果 | 改善诊断和治疗洞察
Caris 计划继续完善其分析算法,以便能够分析来自 DNA 和病理学图像的其他数据集。RNA 测序流程只是该公司的一次试运行,其目的是创建更大的流程来处理 DNA 数据。Spies 表示:“我们希望在这次 RNA 再处理工作中全力以赴,尽可能深入地探究,以便充分理解可扩展性问题,并找到应对这些额外再处理需求的解决方案。”
该公司致力于改善癌症患者的诊断和治疗洞察,并始终着眼于大局。Spies 表示:“我们深感迫切需要改进诊断方法本身,一方面看看是否有当下就能供患者用来治疗癌症的手段,另一方面也要研发下一套治疗方案。这个项目正在加速提升我们改进诊断方法的能力,同时也会让我们获得更多能反馈给患者的治疗洞察。”
AWS Batch 的使用实现了极高的稳定性和可扩展性。我们依靠 AWS Batch 环境,一次运行处理超过 400000 个样本
Greg Desmarais
Caris Life Sciences 软件与数据工程高级总监找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量