客户案例 / 教育

2023
Second Dinner Logo

两个月内完成5000+的宏基因组数据处理,亚马逊云科技助力浙江大学土壤微生物研究团队顺利完成科研任务

运用亚马逊云科技的高性能计算和专属行业解决方案,浙江大学土壤学科研团队整体在2个月内,成功完成了土壤微生物宏基因组数据自动化处理,总计超过5000个测序数据。

5000+

宏基因组测序数据

2个月内

科研任务完成时间

32.8%

整体性价比提升

概述

浙江大学土壤学科是朱祖祥院士等几代土壤科学家共同创建的 A+ 国家重点学科,整体实力雄厚,优势特色明显,总体水平居国内前列。在亚马逊云科技科研创新支持计划(Amazon Web Services Cloud Credits for Research)的多次支持下运用亚马逊云科技的高性能计算和专属行业解决方案,浙江大学土壤学科研团队整体在2个月内,成功完成了土壤微生物宏基因组数据自动化处理,总计超过5000个测序数据。该团队目前使用的亚马逊云科技服务包括: Amazon BatchAmazon Step FunctionsAmazon DynamoDBAmazon Graviton2Amazon Simple Storage Service (Amazon S3)等。

Amazon Web Services Case Study: zhejianguniversity

机会 | 科研 IT 系统环境和技术挑战

土壤微生物作为地球上生物多样性的重要组成部分,在支撑陆地生态系统过程和功能中发挥着不可替代的作用。然而长期以来,由于土壤生物系统的复杂性以及受限于土壤生物学研究技术手段,人们对土壤微生物的多样性和功能的认知仍然相当有限。随着科研领域的不断拓展和深化,越来越多的科学问题需要依靠强大的算力支持来进行模拟、计算和分析。

在上云前,该团队的 IT 系统采用了学校机房自建服务器、租用的 IDC 服务器以及超算中心。由于学校机房自建服务器的存储利用率已超过 95%,浙江大学土壤学科研团队宏基因数据分析的科研任务出现了资源不足的瓶颈,不同科研课题都受到了算力短缺的限制,影响了研究进展。另外,租用的 IDC 服务器和超算中心仅提供硬件资源,难以提供专业的服务。

“经过我们的调研发现,国外同行业的科研机构利用亚马逊云科技的 HPC 解决方案以及 NCBI 公开数据集进行科研,在短时间内获得了分析结果并发表了高质量论文。” 浙江大学土壤学王轶玲博士说道:“此外,我们在阅读文献的过程中发现了一篇论文,该论文基于亚马逊云进行计算流程设计,符合我们的期望,于是开始应用亚马逊云科技。”

kr_quotemark

亚马逊云科技为我们的科研工作提供了强大的高性能计算 (HPC) 解决方案、丰富的公开数据集和专业的支持团队,帮助我们释放科研潜能,在 2 个月内完成过去 1 年时间才能完成的土壤微生物领域宏基因组数据分析任务。”

王轶玲
浙江大学环境与资源学院 博士

解决方案 | 按需定制 HPC 解决方案,实现成本和完成科研任务的双丰收

浙江大学土壤学科与亚马逊云科技展开合作,在土壤微生物科研上应用了亚马逊云科技在生信行业基于 Amazon Batch 的容器化 HPC 解决方案。亚马逊云科技为不同的科研课题提供定制化的解决方案,帮助他们解决各自的痛点。针对宏基因组数据处理自动化流程改造,亚马逊云科技提供 Amazon Step Functions 和 Amazon Batch 解决方案,实现了自动化的数据处理;针对大规模微生物信息挖掘任务,亚马逊云科技提供了基于 Amazon Batch 的 HPC 解决方案,轻松实现批量计算作业;针对大规模微生物序列比对计算,解决方案基于 HPC 架构,并且额外进行了 Amazon Graviton2 处理器的优化,在性能和成本效益方面都取得了巨大的提升。

宏基因组数据处理自动化流程改造:Amazon Step Functions + Amazon Batch 解决方案

宏基因组数据处理通常需要进行多个分析步骤,整个流程冗长而繁琐。Amazon Step Functions 能够将多个亚马逊云科技服务协调到无服务器工作流中,自动触发和追踪每个步骤。在此基础上借助 Amazon Batch 在容器化改造及任务调度方面的能力,最终让宏基因组数据处理实现了流程自动化,从而实现应用的快速构建和更新,同时快速查询处理异常任务,让科研工作者更加专注于科研任务,而无需手动运行繁琐的步骤。

浙江大学土壤学自动化流程改造基于亚马逊云科技的系统架构示意图

大规模微生物信息挖掘任务:基于 Amazon Batch 的 HPC 解决方案

大规模微生物信息挖掘任务所使用的 HPC 涉及大量算力,如何让分布式算力得到妥善应用,需要对算力资源有良好而清晰的规划与安排。Amazon Batch 能根据提交的批处理作业的数量和特定资源要求,动态预置计算资源的最佳数量和类型,从而最大限度地提升计算效率和性能。即使科研团队需要同时运行数千个任务,同时启动大量的容器来处理,Amazon Batch 也能轻松调度。

浙江大学土壤学微生物病毒宏基因测序基于亚马逊云科技的系统架构示意图

大规模微生物宏基因测序:基于 Amazon Batch 的 HPC 解决方案,额外进行 Amazon Graviton2 优化

由于微生物序列比对计算任务量较大,需要耗费大量的时间和费用。相较于传统的 X86 架构,亚马逊云科技自研的基于 ARM 架构的 Amazon Graviton 处理器具有更高的性价比。在科研团队应用 Graviton2 处理器后,发现其性能表现良好,大约有一半的任务可以通过 Amazon Graviton 以更低成本高效地运行,最终帮助科研人员顺利完成科研任务的同时,兼具成本效益。

浙江大学土壤学微生物宏基因测序改造基于亚马逊云科技的系统架构示意图

业务成果 | 2 个月内完成 5000 + 宏基因组数据分析任务实现创新科研

亚马逊云科技的 HPC 解决方案加速了土壤微生物信息挖掘,助力浙江大学土壤学科研团队在 2 个月内成功完成了 5000 + 的宏基因组数据分析。

创新科研合作,2 个月内完成过去 1 年时间才能完成的数据分析任务

浙江大学土壤学王轶玲博士表示:“亚马逊云科技为科研工作者提供了强大的高性能计算、丰富的公开数据集和专业的支持团队,帮助我们释放科研潜能,在 2 个月内完成过去 1 年时间才能完成的土壤微生物领域宏基因组数据分析任务。”

亚马逊云科技在云端科研业务及高性能计算 HPC 业务中的优势为不仅体现在合成生物学、微生物等科研领域,还为环境工程、食品工业(含酒业)、化学工程、生命科学工程等研究领域提供了从实验室到产业化研发的全链路数字化革新解决方案,例如:云上科研实验室、云上科研数据分析平台、高性能计算量子计算知识图谱等。

降本增效,整体性价比提升 32.8%

科研团队利用 Amazon EC2 Spot 实例和 Amazon S3 智能分层等服务来优化成本。通过使用 Spot 实例,客户能够以较低的价格获得计算资源,而智能分层则帮助客户根据数据的访问模式将存储成本降低到最低。

除此之外,通过在 Graviton 上进行代码改造,亚马逊云科技进一步帮助客户提升了性能并降低了成本。经过测试和实践,使用 Graviton 处理器可以将成本降低约 20%,同时性能提升 16%,综合实现了 32.8% 的性价比提升。这意味着客户可以以更低的成本获得更高的性能,为其宏基因组数据分析提供了更优化的解决方案。这些改进措施和技术优化为客户节省了大量的成本,并提升了整体的性能表现。

客户至尚,以及远超行业水准的专业服务

亚马逊云科技提供 NCBI 公开数据集,包含了丰富的宏基因测序数据,可以帮助客户进行实验和研究。这些数据集帮助客户节省了数据收集和准备的时间成本,同时也提供了标准化的参考,使客户能够更加方便地进行比较和分析。

此外,亚马逊云科技客户服务团队具备专业的行业知识和经验,能够理解客户的实际应用场景,并提供针对性的解决方案。浙江大学土壤学王轶玲博士说道:“亚马逊云科技的解决方案架构师团队帮助我们不断优化性能和成本,还协助进行 POC(概念验证)阶段的实施,确保科研团队成功实施项目。”

亚马逊云科技不仅致力于提供稳定可靠的技术和解决方案,还注重提供全方位的支持和服务,帮助客户在合成生物学、微生物研究领域取得卓越的成果。未来,双方将通过进一步的创新科研合作,提升浙江大学土壤学科的国际影响力,帮助浙江大学土壤学科研团队更有效的开展学术研究活动。

关于浙江大学及其土壤学科

浙江大学是一所特色鲜明、在海内外有较大影响的综合型、研究型、创新型大学。2022 年,浙江大学入选第二轮 “双一流” 建设高校,21 个学科入选一流学科建设名单。

浙江大学土壤学科是朱祖祥院士等几代土壤科学家共同创建的 A + 国家重点学科,整体实力雄厚,优势特色明显,总体水平居国内前列。目前拥有国家和省部级工程研究中心、重点实验室 3 个,国家自然科学基金委 “土壤污染过程与修复原理” 创新研究群体和农业农村部 “产地环境质量与农产品安全” 创新团队,国家特聘教授和国家杰青获得者 4 人、国家 “四青” 人才 7 人。

使用的亚马逊云科技服务

Amazon Batch

AWS Batch 让开发人员、科学家和工程师能够高效运行数十万个批处理和机器学习计算作业,同时优化计算资源,这样您就可以专注于分析结果和解决问题。

了解更多>>

Amazon Step Functions

AWS Step Functions 是一项可视化的工作流服务,可帮助开发人员使用 AWS 服务来构建分布式应用程序、自动化流程、编排微服务以及创建数据和机器学习(ML)管道。

了解更多>>

Amazon DynamoDB

Amazon DynamoDB 是一种完全托管式、无服务器的 NoSQL 键值数据库,旨在运行任何规模的高性能应用程序。

了解更多>>

Amazon EC2 Graviton2实例

AWS 设计的 AWS Graviton 处理器为 Amazon EC2 中运行的云工作负载提供最佳性价比。与第一代 AWS Graviton 处理器相比,AWS Graviton2 处理器不管在性能还是功能上都实现了巨大的飞跃。

了解更多>>

行动起来

无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。