TIBCAS

突破传统开发模式,亚马逊云科技助力中科院加速推动合成生物学

2023

借助亚马逊云科技丰富的 Serverless 服务和图数据库 Amazon Neptune 技术,中国科学院天津工业生物技术研究所构建了高通量编辑序列设计云平台 AutoESD 和完整的大肠杆菌调控知识图谱 ERMer,大幅提升一线研究人员的研发效率。中国科学院天津工业生物技术研究所(以下简称 TIBCAS)是一家从事工业生物技术研发的科研机构,由中国科学院和天津市人民政府共建。TIBCAS 采用的亚马逊云科技的产品及服务包括:Amazon S3、Amazon DynamoDB、API Gateway、Amazon Lambda、Amazon Batch、Amazon Step Functions、Amazon Neptune 等。

kr_quotemark

TIBCAS 通过亚马逊云科技提供的多项托管服务,尤其是 Serverless 服务和架构优化,极大的简化了行业应用创新难度,提升了研发效率,通过数字化能力推动合成生物学的发展。

廖小平

TIBCAS 项目研究员

面临的挑战

2019 年,由 TIBCAS 牵头建设的国家合成生物技术创新中心正式启动建设,生物设计中心是其重要的平台实验室之一。从创立之初,生物设计中心就在探索一种不同于传统实验室的研发新模式,以数据和算法为核心,通过构建生物技术和信息技术相结合(BT+IT)的技术体系,在未来将菌种设计构建的主要工作交由计算机完成。

“围绕细胞工厂设计创制的核心任务,生物设计中心主要有两大方面的工作,其一是研发计算机辅助生物设计工具;其二是开发核心数据库。”TIBCAS 项目研究员廖小平介绍说。

在合成生物学实验过程中,一个重要的步骤就是编辑序列设计,关系到最终目标细胞工厂是否能够成功构建。目前的编辑序列设计仍然依靠人工或“半自动化”的模式:人工设计高度依赖研究者自身的经验,因其主观性和偏好性会导致结果千差万别;而“半自动化”设计,虽由计算机辅助,但因为单一工具往往只能覆盖遗传操作的部分环节,研究过程必须协同使用多款软件,既增加了学习成本,又由于彼此间的数据交换标准不一致,导致出错的风险。

如今,大规模合成生物制造平台——生物铸造厂(BioFoundry)高速发展,使高通量的遗传操作成为可能,相关实验流程也越来越模块化、标准化,人工或“半自动化”模式很难实现高通量、自动化的微生物构建,影响开发效率。

而对于“开发核心数据库”的需求,廖小平解释到:“细胞中的代谢调控非常复杂,不同类型的调控数据通常散落在各个不同的数据库,很难对这些调控关系实现全局性认识,只有重新设计一个存储和分析高连接数据的新框架,将这些不同类型的代谢调控相互作用汇集在一起,并提供方便的交互方式,才能方便生物学家挖掘和理解生物体内的复杂调控关系。”

为什么选择亚马逊云科技?

自 2019 年 TIBCAS 就开始和亚马逊云科技共同探索,如何通过云计算助力 TIBCAS 在菌种计算设计和业务关联数据存储检索方面的创新。TIBCAS 之所以选择与亚马逊云科技合作,一是,亚马逊云科技针对科研领域提供了具有行业深度的解决方案,在云服务上能够满足不同业务场景的需求,并具备典型的成功案例;同时,亚马逊云科技有丰富工业生物行业经验,能够理解 TIBCAS 行业应用场景,并提供有深度的指导意见;二是,亚马逊云科技 Serverless 技术成熟,多项创新托管服务极大简化了行业应用创新难度;三是,亚马逊云科技专业服务团队提供全生命周期技术支持,能加速项目落地。四是,通过亚马逊云科技创新研究资助计划,对 TIBCAS 科研项目提供的支持。

基于 Serverless 架构开发 AutoESD 云平台,实现自动化和高通量的编辑序列设计

Serverless 服务轻量化且易于使用,与生物工程真实的业务场景结合,能更便捷的实现复杂的工作流编排和异常处理,提供轻量化且足够弹性的算力需求,能够进行模块化封装和复用的组件等需求。为此,TIBCAS 通过对遗传操作技术的模块化解构与标准化处理,结合亚马逊云科技提供的 Serverless 服务,实现了全流程、自动化和高通量的编辑序列设计,开发出云平台 AutoESD。该平台支持多种基于筛选标记的同源重组技术变种,理论上支持所有基因组序列已知的微生物,并可以在单批次任务中处理针对不同目标序列(CDS 或基因间区域)的多种类型的遗传操作(敲除、插入和替换)。

廖小平介绍说:“基于云上的无服务器架构模式,我们构建了适用所有操作类型、任何基因组位点和跨物种的精确、自动化和高通量编辑序列设计的云平台 AutoESD,大大降低了一线科研人员使用工具的门槛,为将来实现快速高效的‘设计—构建—测试—学习’合成生物学工程循环奠定了基础。”

此外,TIBCAS 开发的 IMODB、BioTools 等工具也采用同样的底层架构,由 Amazon Simple Storage Service (Amazon S3)Amazon DynamoDB 分别为静态资源和动态资源的存储提供支持, Amazon API Gateway 实现 API 接口,后端通过 Amazon LambdaAmazon Batch 来承载不同算力需求的任务,Amazon Step Functions 能够帮助工程师更好的管理序列设计工作流,以及处理工作流中复杂的任务依赖关系。在部署上,基础架构部分都通过 CDK 完成基础架构代码化,能够实现自动化部署和版本管理,在业务层面如页面前端、后端复杂计算过程,通过 CI/CD 实现自动化集成和部署。

借助Amazon Neptune设计ERMer,探索完整的大肠杆菌调控知识图谱

在“开发核心数据库”时,TIBCAS 联合亚马逊云科技针对微生物领域真实业务场景需求,基于 Amazon Neptune 图数据库、无服务器架构和图形可视化引擎,设计出一款存储和分析高连接数据的新框架,实现了有效的交互式检索和可视化,该框架具有很好的通用性和扩展性,可以非常方便地延伸到生物学多个应用领域和物种的研究中。利用该框架,TIBCAS 开发了目前第一个基于图数据库的大肠杆菌调控知识图谱 ERMer。ERMer 实现了多种复杂调控级联或模式的快速检索和可视化,让科研人员能够以交互式、无需编程的方法探索完整的大肠杆菌调控图谱。

“Amazon Neptune 是我们知识的载体,能够高效存储和检索高度复杂关联的数据,在业务场景应用中相比传统数据库提升了数百倍的性能,”廖小平表示,“同时,Amazon Neptune 也是我们实现图谱核心能力的载体,能够将典型、复杂的生物学问题转化为图论问题,科研人员只需要输入所关注的途径名称,即可获得所有调控代谢物的可视化结果,提升了科研工作效率。”

为了进一步发挥知识图谱的价值,TIBCAS 还采用了 Amazon Neptune ML 来训练模型,通过使用图谱神经网络技术,实现了转录因子预测和转录因子靶点预测等功能。

获得的收益

TIBCAS 通过亚马逊云科技提供的多项创新托管服务,尤其是 Serverless 服务和架构优化,在流量峰值、访问稳定、成本优化和运维简化等方面都取得了令人满意的成效,极大的简化了行业应用创新与发展的难度,加速了通过数字化能力对合成生物学的推动。

  • 无服务器架构实现强大高通量性能
    通过采用无服务器架构模式,AutoESD 云平台具有非常强大的高通量性能,可以同时支撑几百个终端用户,每个用户可以提交几千个编辑目标设计需求,并且仅需几分钟时间便可得到反馈结果,即使面对研究成果发布或迭代时, TIBCAS 也可从容应对流量峰值。
  • 简化运维,让研究人员专注于业务代码和创新
    系统依托 Serverless 技术实现原生高可用、高性能,且基于 CDK 对基础设施进行代码化后,能够实现基础设施的自动化部署与更新,同时保证生产与测试环境的一致性,降低人工运维压力,且开发实践时间大幅缩短,仅为之前的四分之一,大幅提升了研发效率。
  • 成本节约,资源精准匹配业务
    无需硬件成本投入,即能保证业务在被请求时可以及时获得响应,且大部分服务都能够按秒甚至毫秒计费,成本投入能够更精细的匹配到业务,相比传统方案 TCO 降低了 50%,实现更细粒度的按需付费。

未来,TIBCAS 希望基于亚马逊云科技先进的服务技术和服务能力,进一步助力研究所在合成生物领域的科研探索,如进一步通过 AI、量子计算等服务开展科研创新等。此外,也期望依托于亚马逊云科技的全球科研领域辐射能力,提升 TIBCAS 国际影响力,为世界各国的合成生物学科研工作者提供优质的服务。


关于 TIBCAS

中国科学院天津工业生物技术研究所(简称 TIBCAS)成立于 2012 年,是由中国科学院和天津市人民政府共建、从事生物技术创新推动工业领域生态发展的科研机构。TIBCAS 围绕绿色低碳和经济社会可持续发展的重大需求,面向国民经济主战场,面向工业生物科技前沿,以生物设计为核心,开展工业生物技术战略性、前瞻性的基础与应用基础研究,集聚工业生物科技力量,创新生物产业关键核心技术与重大颠覆性技术,构建工业经济发展的生态路线,服务我国绿色生物经济与社会经济可持续的发展。截至目前,TIBCAS 已经承担了各类科研项目约 700 项,在生物医药、化工产业、纺织、发酵等领域为 28 个省市的几百家企业提供服务。

为什么使用亚马逊云科技?

  • 丰富的科研案例以及生物医药行业经验
  • 全托管的 Serverless 服务
  • 专业的服务团队全程技术支持
  • 亚马逊云科技科研支持计划

产品卡片

Amazon S3

Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。

Amazon Lambda

Amazon Lambda 是一项无服务器事件驱动型计算服务,该服务使您可以运行几乎任何类型的应用程序或后端服务的代码,而无需预置或管理服务器。

Amazon Neptune

Amazon Neptune 是为云构建的完全托管的数据库服务,可以更轻松地构建和运行图形应用程序。

Amazon Batch

Amazon Batch 让开发人员、科学家和工程师能够高效运行数十万个批处理和机器学习计算作业,同时优化计算资源,这样您就可以专注于分析结果和解决问题。 


开始使用

各行各业中所有规模的公司都在使用 AWS 对其日常业务进行转型。联系我们的专家,立即踏上您的 AWS 云之旅。