AWS云助力金匙医学数分钟构建HPC集群,90分钟完成病原检测分析
2020
北京金匙基因科技有限公司(GENSKEY )(以下简称“金匙医学“)成立于2017年,金匙取“基因钥匙(Gene’s Key)”的含义,寓意企业的宗旨是应用基因科技寻找破解感染病诊断难题的金钥匙。金匙医学的主要业务专长是依托于mNGS(宏基因组学二代测序技术)的病原微生物检测,以及生物信息学,微生物学、高通量测序技术为临床诊疗提供精准检测服务,目前主要产品“金识原”,1份样本可以对最多19,036种病原进行检测。
随着2020年初新冠肺炎疫情在全球蔓延,金匙医学即刻研发了新型冠状病毒核酸检测试剂盒,并驰援武汉。金匙医学依托于多重荧光定量RT-PCR法完成COVID-19病毒检测,成为第一批进入全国核酸检测机构的单位,为疫情防控贡献重要力量。在新型冠状病毒疫情期间,金匙医学联合四川大学华西医院开展SARS-Cov-2变异分析研究,并在国际病毒学权威杂志Journal of Virology发表合作研究论文。
病原分析争分夺秒,云计算为基因分析保驾护航
金匙医学的业务主要针对感染病领域,而当前肺炎、血流感染、脑炎以及今年爆发的新冠肺炎等感染类疾病的病原检测,如果使用传统检测方法检测阳性率都较低,不能快速明确病原以及发现未知病源。金匙医学则利用mNGS (宏基因组学二代测序技术)的病原微生物检测,依托于生物信息学、微生物学、高通量测序等技术为临床诊疗提供更精准的检测服务,希望运用创新的技术,更好地服务现有的医疗机构。
新一代高通量测序(NGS)需要一系列的转换、比对、识别等数据分析过程,要求底层支撑的IT平台具备强大和灵活的计算能力。早期,金匙医学利用本地服务器与私有云结合的方式搭建了自有的高性能计算(HPC)集群,但面对不可预测的数据规模和复杂的分析过程,本地服务器的计算资源扩展较慢,不能满足大规模数据的存储与计算需求,而且基础设施的投入成本和运维管理成本也增加了企业的负担。
更重要的是,面对像COVID-19疫情等大型突发的社会公共卫生事件,如果本地IT支撑平台的计算和存储资源不能及时到位,就会影响检测效率,无法快速完成病原的识别和分析。然而,对感染病患者来说,病原检测的速度事关生死,此时生命是按秒计算,早一秒检测出病原,医生就能更好地对症治疗。
金匙医学看到,云服务的资源灵活扩展能力更能满足其不断增长的业务需求,而且计算、存储资源按需使用,可以有效控制成本支出。综合评估市场上云服务商的技术实力和长短期运营成本后,金匙医学最终选择了AWS云服务。
-
数据分析时间缩短至90分钟,总体成本节约50%
-
基于云原生服务持续架构演进,病原分析时间有望从90分钟缩短至1小时
-
数据分析时间缩短至90分钟,总体成本节约50%
-
自2019年5月开始,金匙医学逐步将本地数据迁移至由光环新网运营的AWS中国(北京)区域。同年底,出于对业务需求的考虑,金匙医学将业务在半天之内整体迁移至由西云数据运营的AWS中国(宁夏)区域,并顺利稳定运行。
利用AWS ParallelCluster开源集群管理工具,金匙医学在半小时内就完成了云端HPC集群的部署,无需长时间地评估、部署和测试;而且AWS ParallelCluster的模版化功能,也帮助金匙医学迅速完成了HPC集群向AWS中国(宁夏)区域的迁移,快速生成一套与AWS中国(北京)区域一模一样的HPC集群,确保了金匙医学分析业务的连续运行,也有利于后期的集群升级改造。
AWS ParallelCluster还可以根据具体任务执行状态和资源使用情况自动申请更多节点,并自动加入到已有的HPC集群中,充分满足了金匙医学业务不断增长的、资源随时扩展的需求。同时在计算任务结束之后,自动释放空闲计算资源降低计算成本。在资源的弹性扩缩过程中无需人工运维和管理工作,为业务人员提供了极大的便利。
此外AWS提供了丰富的计算实例,金匙医学根据不同的分析任务需求申请不同的计算资源,根据不同分析步骤的任务特点选择匹配的计算资源规模及型号,低至4核8G,高至96核768G。AWS可以为任务提供丰富的资源选型,在分析时间和资源占用上得以进一步优化。
通过使用AWS云服务,金匙医学在服务器选型及软件产品前期验证、部署方面节省了大量时间。以病原分析软件为例,基于AWS的资源调配,金匙医学的软件整体测试、部署周期从6个月缩减至3个月左右。
最重要的是,基于AWS的HPC架构的高度灵活、可扩展特性,以及AWS自动化流程优化工具,金匙医学快速地自动完成了分析资源的调度和自动化,完全满足了大规模样本量分析需求,并且将病原分析时间缩减至90分钟,大大提升了工作效率。对此,金匙医学生信总监李立锋表示,“时效性是病原检测业务的关键,我们对病原数据分析的时间要求是2个小时内完成从数据处理到报告呈现。AWS云服务可以在5-10分钟内启动并匹配相应的资源需求,让我们的病原分析时间缩短至90分钟以内,从而更快、更好地满足医疗机构的临床诊疗需求。”
此外,利用AWS云服务,金匙医学可以统一将多个数据中心的数据集中到云端进行分析处理,极大地降低了不同地域的软硬件运维成本,避免了额外硬件的投入。最终,相比于本地HPC集群的搭建,金匙医学节省了50%的总体成本。
-
基于云原生服务持续架构演进,病原分析时间有望从90分钟缩短至1小时
-
当前基于Amazon Elastic Compute Cloud (Amazon EC2) 的HPC架构,虽然处理金匙医学现有病原分析业务游刃有余,但在可预见的样本数量大规模增长的未来,病原检测中的配对分析、生信分析的数据量将进一步增加,那么当前架构将不再满足临床上的时间要求。
为此,在AWS服务团队的协助下,金匙医学在架构中引入了AWS Batch和Nextflow工具,以提升自动化水平、提供更强的业务交付能力。初步测试显示,进一步优化的HPC架构,帮助金匙医学在病原检测测试阶段的中间环节上已经成功节省了10-15分钟的时间,完成了目标的30%。
图 1 金匙医学基于云原生架构演进示意图
测试架构中的AWS Batch服务可根据提交的作业数量和资源要求,预置计算资源的数量和类型;在Nextflow 配合下可实现更细粒度的任务调度,可根据不同的业务和流程,将计算任务投递到不同的AWS Batch计算队列,并根据优先级智能调度;使用Docker容器快速无差异地启动计算资源,更进一步提升分析业务的效率,优化计算成本;最后将数据存储于Amazon Simple Storage Service (Amazon S3) 和Amazon S3 Glacier中,自动化管理数据生命周期,通过将不同的数据分级存储,减少存储成本。
未来,金匙医学将携手AWS团队持续优化云端基因分析流程,充分利用Genome Analysis Toolkit (GATK) on AWS方案中预置的基因检测工具和算法。同时将更多AWS托管服务融入到病原微生物检测业务中,以更高效的手段和更低的成本服务于更多临床患者。
关于金匙医学
北京金匙基因科技有限公司(GENSKEY )成立于2017年,金匙取“基因钥匙(Gene’s Key)”的含义,寓意企业的宗旨是应用基因科技寻找破解感染病诊断难题的金钥匙。
为什么使用AWS
- 快速构建高性能计算(HPC)集群
- 无服务器架构、灵活部署,启动并管理任务
使用的AWS服务
AWS ParallelCluster
AWS ParallelCluster 是一个受到全面支持和维护的开源集群管理工具,让科学家、研究人员和 IT 管理员可以轻松地在 AWS 云中部署和管理高性能计算 (HPC) 集群。
Amazon EC2 Spot 实例
Amazon EC2 Spot 实例让您可以利用 AWS 云中未使用的 EC2 容量。与按需实例的价格相比,使用 Spot 实例最高可以享受 90% 的折扣。
Amazon S3
Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。
AWS Batch
AWS Batch 让开发人员、科学家和工程师能够轻松高效地在 AWS 上运行成千上万个批处理计算作业。
开始使用
各行各业中所有规模的公司都在使用 AWS 对其日常业务进行转型。联系我们的专家,立即踏上您的 AWS 云之旅。