Illumina 使用 AWS 将基因组从样本数据转变为科学洞察

2021 年

在过去的十年中,基因组学已经从一个专业研究领域发展成为一种强大的临床工具,开创了以患者为中心的医疗保健新时代。基因组测序和分析现已更为简单、便宜和全面,这样一来,临床医生可以为个别患者订购基因测试,而研究员则可以对数千个样本进行检测以找出遗传变异与人类疾病之间的联系。虽然第一个人类基因组花费了数十年的时间才完成测序,但科学家现在可以在 24 小时内有效地对整个人类基因组进行测序。

Illumina 的使命是解锁人类基因组奥秘以改善人类健康。作为 AWS 合作伙伴,该公司一直推动着基因组学技术向前发展,自 2013 年以来,其已从测序仪器供应商发展为完整的基因组解决方案提供商,并在 Amazon Web Services(AWS)上部署了软件解决方案。Illumina 采用由 AWS 支持的软件解决方案,降低了准入门槛,并帮助研究员每天获取新发现,进而推动药物研发等。

“基因组学行业正不断向各个方向领域扩展,从直接面向消费者的测试到个性化的癌症疫苗,”Illumina 的首席商务官 Susan Tousi 说道。“Illumina 的目标是在全球范围内普及基因组学技术;我们从一开始就与 AWS 合作,为我们的客户提供其所需的解决方案。在过去的十年中,我们扩展了我们在 AWS 上可用的软件组合,以提供一套无缝的整体解决方案,该解决方案可直接部署或针对特定需求进行自定义。”

2021 年 AWS 医疗保健和生命科学虚拟研讨会:Illumina
kr_quotemark

我们正在安全的 AWS 环境中提供从样品制备到三次分析的完整工作流程,该环境支持对测序前后生成的所有信息进行汇总和分析。”

Rami Mehio
Illumina 生物信息学和仪器软件副总裁

完整的下一代基因组工作流程从样本采集、制备和测序开始,但这仅仅是开始而已。之后从原始读取质量控制、数据预处理和对齐开始,便是繁重的生物信息学工作。接着,科学家可以进行二次分析(如变异检测);最后则是根据他们的兴趣进行高级的三次分析。这些三次分析可包括系统发育注释、基因型-表型关联等等。若相关研究员和临床医生并非生物信息学专家,则对其而言,要在单独的平台上执行每个步骤很快就会变得不堪重负。

Illumina 为客户简化了整个基因组工作流程,并为每个步骤都提供了集成解决方案。BaseSpaceTM Clarity LIMS(实验室信息管理系统)从一开始就帮助基因组客户跟踪样本及优化测序工作流程。测序仪器可以将数据直接上传到 Illumina Connected Analytics(ICA)平台,而用户可以在 AWS 上管理数据集并利用平台内的分析工具。DRAGENTM Bio-IT 平台可准确、超快速地提供二次分析结果。同时,BaseSpace 关联引擎可将个人数据集和查询集成到开放访问和受控访问的公用数据集存储库中,以实现各种三次分析。

这些平台的数据存储在 Amazon Simple Storage Service(Amazon S3)上,这是一种可扩展对象存储服务。Illumina 的客户使用在 Amazon Elastic Compute Cloud(Amazon EC2)上运行的 DRAGEN 来开展研究,并大幅加快他们的分析,而 Amazon EC2 是一种 Web 服务,可以在云中提供安全并且可调整大小的计算容量。

“我们正在安全的 AWS 环境中提供从样品制备到三次分析的完整工作流程,该环境支持对测序前后生成的所有信息进行汇总和分析。”Illumina 软件与生物信息学副总裁 Rami Mehio 说道。“对于希望随着时间的推移跟踪样本、将数据与公开数据库交叉引用以及收集见解以更快获得结果的客户来说,该功能非常强大。”

虽然高级用户可以选择自定义 ICA 和 DRAGEN 等工具来执行利基研究,但 Illumina 还会提供具有开箱即用功能的端到端云解决方案,以满足特定用途。其中包括 TruSightTM 软件套件(一种用于发现罕见疾病见解的变异分析软件解决方案),以及 TruSight Oncology 500(一种用于分析肿瘤和识别免疫肿瘤生物标志物的微调测序分析工具)。

“我们依靠 AWS 工具的优势作为支持,使我们能够专注于设计特定于基因组的算法,”Mehio 说道。“随着研究员和临床医生需求的变化,我们可以轻松部署我们产品的新功能和版本。”

通过在 AWS 上节省成本来降低成本

自成立以来,Illumina 降低基因组技术成本的速度已超过摩尔定律。 2001 年,对单个人类基因组进行测序的成本超过 1 亿美元;20 年后,其成本可降低至 600 美元。

“我们希望普及基因组学技术;将节省的成本传递给我们的客户是这项举措的重要组成部分,”Tousi 说道。“成本不应该是研究或临床应用的决定因素,人们应该完全根据他们预期的数据使用方式来进行测序和分析。”

Amazon S3 存储类可以根据不同的数据需求进行自定义,从而使 Illumina 能够轻松优化以最大程度地节省成本。通过在 Amazon S3 Glacier Deep Archive 中存储 PB 级不经常访问的数据,Illumina 客户可节省 90% 以上的存储成本。同样,DRAGEN 在 Amazon EC2 F1 实例上运行,而这些实例提供经济实惠的加速型计算,从而可支持 Illumina 所需的并行进程。F1 实例能够通过 DRAGEN 现场可编程门阵列(FPGA)实现可自定义的硬件加速。 为了跨 F1 实例扩展 DRAGEN,该公司使用了 AWS Batch,这是一种完全托管的批处理服务,可用于规划、安排和执行批处理计算工作负载。

“AWS 为我们提供了各种选项,以确保能够优化速度、灵活性和成本,并满足最终客户的使用案例和需求,”Mehio 说道。“一些用户可能希望尽快执行基因分析,而一些学术用户则可能会选择牺牲一些速度来降低成本及节省研究费用。通过利用不同的 F1 实例类型和存储选项,我们的用户可以保持灵活性并且能够根据需要进行扩展和缩减。”

Illumina 还通过在 Amazon EC2 竞价型实例上运行其平台的许多计算作业来降低客户的成本;与按需定价相比,这些作业可享受高达 90% 的折扣。  “仅在过去一年,我们的客户就使用了数十万小时的竞价型实例,这为他们节省了大量成本,”Tousi 说道。

成本节省与技术优势可齐头并进。Illumina 最近将三次分析关联引擎迁移到 AWS,这样一来,既能节省成本,同时又可将数据摄取管道扩展了六倍,从而提升知识库的发展速度以及增强其功能。

用于扩展全球基因组的安全解决方案

人类基因组数据可能与高度个人化的健康信息相关联,而对全球医疗保健组织来说,数据泄露是一个日益严重的风险。因此,安全性是 Illumina 及其客户的首要考虑因素,其中许多客户必须遵守日益严格的数据管理法规。

“安全性是头等大事 - 它是我们一切工作的核心,”Tousi 说道。“从根本上说,我们可以依靠 AWS 责任共担模式来确保我们的底层云基础设施维持企业级安全性和合规性。通过在全球范围内利用 Amazon EC2 区域,我们对数据进行计算,为所有区域的客户提供支持,同时让他们维持数据主权。”

AWS 支持数以千计的安全标准和合规性认证,包括 HIPAA、GDPR、ISO 27001 和 ISO 13485,可帮助客户满足其整个基因组工作流程的合规性要求。Illumina 通过在 Amazon Virtual Private Cloud(Amazon VPC)中提供数据管理让客户更加安心,而 Amazon VPC 会在逻辑隔离的自定义虚拟网络中启动其他 AWS 资源,将一个客户的数据与另一个客户的数据分开。

这种全球可扩展性和部署推动了有关长期项目和应急危机响应的高效协作。在 2020 年全年和 2021 年上半年,全球各地的研究员在 Illumina 的新冠肺炎 BaseSpace 应用程序上处理了超过 371000 个与新冠肺炎相关的样本。“如果客户只能在本地执行此操作,则我们将会遇到严重的限制。因此,云是在这一层面为应对全球疫情提供动力的关键所在,”Tousi 说道。

构建基因组和生物技术的未来

随着大规模种群基因组计划的兴起,以及对 ICA 等强大分析软件解决方案的访问范围不断扩大,Illumina 正在充分利用基因组中“大数据”的力量,以帮助客户从海量测序数据中挖掘丰富的见解。这些项目将推动个性化基因组的新时代,使研究员能够在基因和健康结果之间建立联系,而这些联系在较小的样本中并不明显。

Illumina 平台还有助于推动当前研究到未来多基因组的无缝过渡。例如,基于云的 DRAGEN 单细胞 RNA 管道允许科学家对单个细胞中的基因表达进行注释。借助 DRAGEN 加速,该平台可以在大约 53 分钟内同时并行处理三个细胞样本。

“借助在 AWS 上部署的 ICA、DRAGEN 和其他工具,我们提供的解决方案使客户能够聚合任何数据类型,包括 NGS 和健康数据,然后从这些大型群组中提取新信息并大规模改善人类健康,”Mehio 说道。

了解更多

了解 AWS 如何支持其他领先的生命科学组织寻求改善人类健康的方法。   


关于 Illumina

Illumina 开发、制造和销售用于分析遗传变异和生物机能的集成系统。

AWS 的优势

  • 便于访问简化、统一、可自定义的样本到分析工作流程
  • 使用 Amazon EC2 竞价型实例和 Amazon S3 Glacier 显著降低计算和存储成本
  • 在全球安全且合规的环境中部署了强大的基因组解决方案组合
  • 加速研究并促进全球客户的协作,处理了超过 371000 个新冠肺炎相关样本

使用的 AWS 服务

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) 是一种 Web 服务,可以在云中提供安全并且可应需调整的计算容量。该服务旨在让开发人员能够更轻松地进行 Web 规模的云计算。

了解更多 »

Amazon S3

Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。


了解更多 »

AWS Virtual Private Cloud

Amazon Virtual Private Cloud(Amazon VPC)是一种支持在自定义的逻辑隔离的虚拟网络中启动 AWS 资源的服务。

了解更多 »

Amazon EC2 Spot 实例

Amazon EC2 Spot 实例让您可以利用 AWS 云中未使用的 EC2 容量。与按需型实例的价格相比,使用竞价型实例最高可以享受 90% 的折扣。

了解更多 »


开始使用

不同行业和规模的公司都在使用 AWS,将其日常业务运营进行转型。联系我们的专家,立即踏上您的 AWS Cloud 之旅。