客户案例/生命科学

2023 年
BioNtech 徽标

BioNTech 使用 AWS 将蛋白质组学工作流的数据处理速度提高 500 倍

了解 BioNTech 如何使用并行工作流加快质谱数据处理速度,将处理时间缩短 500 倍。

减少 50-75% 的

文件搜索时间

显著降低

计算实例成本

同时运行数百个

数据搜索

改善了

科学家的生产力,同时保持强大的数据安全性

提高了

组织中的数据可访问性和可重用性

概述

BioNTech 是一家总部位于德国的全球性公司,专门开发针对癌症和传染病的免疫疗法和疫苗,例如辉瑞-BioNTech 新冠肺炎疫苗。质谱(MS)是一项强大的技术,用于直接鉴定患者源性肿瘤组织或细胞系中与人类白细胞抗原(HLA)分子结合的肽。这些 HLA 免疫肽组可作为细胞疗法的抗原发现来源,并用于训练机器学习模型,为疫苗开发提供信息。 

BioNTech 旨在进一步其改善存储、组织和处理 TB 级 MS 数据的工作流,以提高其效率和可扩展性。该公司决定将本地 MS 软件和数据存储迁移到 Amazon Web Services(AWS),从而实现可扩展、安全且先进的处理方式。 现在,BioNTech 加快了获取洞察的速度,便于研究人员更轻松地使用 AWS Storage Gateway 实现 MS 数据共享与协作,AWS Storage Gateway 服务可为本地应用程序提供访问几乎无限的云存储的功能。

Young female tech or scientist performs protein assay

机会 | 使用 AWS Storage Gateway 进一步简化和加快 BioNTech 质谱数据处理

质谱法是一种强大的免疫肽组学方法,因为它可以在对临床相关组织和细胞系的单次分析中检测和鉴定数千种独特的 HLA 结合肽。单次采集产生的原始数据集是一系列光谱的集合,可根据参考蛋白质组数据库进行搜索,从而得出肽和蛋白质鉴定结果。在蛋白质组学和免疫肽组学工作流中,Spectrum Mill MS 蛋白质组学软件等软件包是用于处理和分析定期收集的大量 MS 数据的重要组件。 

2022 年之前,该公司一直在本地服务器上运行该软件。科学家们此前必须将数据从仪器计算机手动迁移到运行 Spectrum Mill 的本地工作站,并且这些设备会很快填满,需要采取额外步骤进行数据存档。BioNTech 数据工程师 Akhil Chaudhary 表示:“我们的总数据量很容易就会达到 10-15 TB,因而将其迁移到本地设备既耗时又颇具挑战性。”“随着我们研究活动的增加,MS 数据收集也在显著增加,”BioNTech 解决方案架构师 Michael McCarthy 表示。“本地硬件已经无法支持我们的现有规模。” 

为了加快数据处理并获取解读结果,BioNTech 的计算生物学团队需要一种方法,使用不同的搜索参数和蛋白质序列数据库同时处理数百个请求,作为他们最大限度地利用肽和蛋白质信息来进行新发现的工作的一部分。于是,该部门联系了 BioNData 团队(公司内部的中央数据和分析团队),希望构建能够横向扩展数据处理能力的工具。该团队选择与 AWS 合作,构建混合实验室数据模型并创建横向扩展的 API。“在美国,我们使用 AWS 成功开发产品可谓由来已久,”McCarthy 表示。“这是自然而然的选择。”

kr_quotemark

我们的科学家正在 AWS 上生成和共享呈指数级增长的数据,旨在为患者找到有效、有针对性的个性化疗法。真正限制你的其实是你的想象力,目前,我还没有发现有什么解决方案是无法基于 AWS 构建的。”

Michael McCarthy
BioNTech 解决方案架构师

解决方案 | 使用并行工作流大幅加速数据处理

第一阶段,BioNTech 的重点是能够将数据从 MS 仪器计算机无缝迁移到云端,并在 AWS 上托管 Spectrum Mill。第二阶段,需要构建一个用于同时运行搜索请求的系统。 

为了将 MS 原始数据迁移到云端,BioNTech 在每台仪器计算机上安装了 AWS Storage Gateway 代理程序。MS 原始数据会在采集后快速地自动迁移到 Amazon Simple Storage Service(Amazon S3),这是一种对象存储服务,可在任意位置检索任意数量的数据。“迁移速度非常快。一个 5 GB 的文件只需 5-10 秒就能出现在 Amazon S3 上。”Chaudhary 说道。由于有多台仪器在生成大数据集,该 MS 数据管道可以更高效地将数据迁移到集中位置,实现轻松访问,从而进行数据处理和存档。 

于是,BioNTech 的计算生物学团队很快采用了新的工作流。“每个人都在使用基于云的系统,研究人员发现它更为简单易用,”McCarthy 说。“借助 AWS,我们实现了数据管理自动化,让科学家可以专注于科学。” 

接下来,该团队在 Amazon Elastic Compute Cloud(Amazon EC2)上安装了 Spectrum Mill,可以为几乎任何工作负载提供安全且大小可调的计算容量。Chaudhary 称:“在云端运行 Spectrum Mill 后,单次搜索时间缩短了 50-75%。”此外,BioNTech 还运行 Amazon EC2 竞价型实例,该实例可以运行容错工作负载,与按需型实例的价格相比,节省可达 90%。由于该公司只需为实际使用实例的时间付费,计算成本得以显著降低。 

为了扩展一次可以运行的工作流数量,该团队使用 Amazon Machine ImagesAmazon EC2 Auto Scaling,前者提供启动实例所需的信息,后者可以添加或删除计算容量以应对不断变化的需求。McCarthy 称:“现在,我们的搜索速度提高了 50-75%,并且借助 Amazon EC2 Auto Scaling,我们可以并行运行数百个实例,数据处理速度大幅提升,提高多达 500 倍。” 

BioNTech 使用 Amazon Simple Queue Service(Amazon SQS)(一种完全托管式消息队列服务)来管理 Spectrum Mill 工作流。该公司还使用 Amazon API Gateway(一种用于创建、维护和保护任何规模的 API 的服务)来执行 Spectrum Mill 搜索。随后,它从 Amazon Redshift 上的数据仓库中提取数据,该数据仓库为云数据仓库提供了出色的性价比。科学团队使用这些数据集来确定治疗靶点,并构建人工智能算法以用于疫苗设计。 

该团队使用 data.all(一款用于在 AWS 账户间共享数据集的开源工具)将处理后的结果与整个公司的数据使用者联系起来。因此,研究人员不再需要花时间进行数据管理。McCarthy 称:“我们的科学家正在 AWS 上生成和共享呈指数级增长的数据,旨在为患者找到有效、有针对性的个性化疗法。”

成果 | 将速度和可扩展性扩展到更多工作流

BioNTech 很快就发现了 AWS 上新工作流的优势。“我们可以在 60 小时内重做过去 7 年的所有工作,而成本只有原来的一小部分”,Chaudhary 说。在下一阶段,该团队要试图改进并自动化质谱分析工具,以降低肽的错误发现率。此外,该团队还围绕其 API 创建图形包装器,以便 BioNTech 的所有团队都能在日常工作流中从 API 中受益。

“Spectrum Mill 项目只是我们正在计划的众多项目中的第一个,”McCarthy 说。“这个项目激发了大家的信心,我们相信我们可以为全球团队解决类似的问题。真正限制你的其实是你的想象力,目前,我还没有发现有什么解决方案是无法基于 AWS 构建的。”

关于 BioNTech

BioNTech 是一家全球性的免疫疗法研发公司,致力于开发和生产主动免疫疗法,并开展针对癌症和其他疾病治疗和疫苗的临床试验。

使用的 AWS 服务

AWS Storage Gateway

AWS Storage Gateway 是一组混合云服务,提供几乎不受限制的云存储的本地访问权限。

了解更多 »

Amazon EC2

Amazon Elastic Compute Cloud(Amazon EC2)提供最广泛、最深入的计算平台,拥有超过 750 个实例,可选择最新的处理器、存储、网络、操作系统和购买模型,以帮助您最好地满足工作负载的需求。 

了解更多 »

Amazon S3

Amazon Simple Storage Service(Amazon S3)是一项对象存储服务,在可扩展性、数据可用性、安全性和能效方面业界领先。 

了解更多 »

Amazon SQS

借助 Amazon Simple Queue Service(Amazon SQS),您可以在软件组件之间发送、存储和接收任何规模的消息,而不会丢失消息,并且无需其他服务即可保持可用。

了解更多 »

更多生命科学行业客户案例

未找到任何项目 

1

行动起来

无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。