DNAnexus 和 Amazon Web Services(AWS)为 UK Biobank 的 Research Analysis Platform 提供技术支持。

执行摘要

世界各地的研究人员需要能够安全地访问 UK Biobank,这是一个千亿字节大小的生物医学数据库和研究资源库。AWS 合作伙伴 DNAnexus 利用 Amazon S3 和 Amazon EC2 来构建和运营一个可扩展的平台,使获批准的用户能够在虚拟环境中安全地查看和分析“软拷贝”文件。这确保了健康数据的安全性,并使缺乏自己的存储和分析基础设施的研究人员能够实现对这些数据的民主化访问。

了解各种因素

要了解和治疗 2 型糖尿病、癌症和阿尔茨海默病等复杂疾病,科学家需要了解,随着时间推移,遗传、环境和生活方式这几项因素之间的关系。这种性质的纵向数据极难积累,这就是为什么全球科学界会从名为 UK Biobank 的大规模协作型生物医学数据集和研究资源库中获益的原因。

2019 年对 19.6383 万名 UK Biobank 参与者进行了关于痴呆症的研究,数据表明,无论遗传风险高低,坚持健康的生活方式都可以降低患痴呆症的风险。结果表明,干预措施可以抵消患痴呆症的遗传风险。2018 年对 47.2 万名年龄在 40 至 69 岁之间的 UK Biobank 参与者进行了研究,得出的结论是,女性因吸烟、糖尿病和高血压而诱发心脏病的风险比男性高。女性因高血压而诱发心脏病的风险总体上比男性高 80%。在 I 型糖尿病患者中,女性的心脏病发作风险几乎是男性的 3 倍,而在 2 型糖尿病患者中,女性的心脏病发作风险比男性高出 47%。

在 2006 年至 2010 年之间,UK Biobank 从英国各地招募了 50 万名志愿者。每个志愿者都提供了有关其生活方式和身体指标的详细信息,包括血液、尿液和唾液样本,以供将来分析之用。UK Biobank 建立了持续的数据收集流程,并整合了电子健康记录,为每个参与者生成了成千上万个数据点。2017 年增加了完整的基因分型数据,来自共 50 万名参与者的全基因组测序数据将在 2023 年初公开(测序部分已于最近完成)。UK Biobank 预计,到 2025 年,其数据库的数据将超过 40 PB。

这项大规模数据收集的集体目标是帮助世界各地获得批准的研究人员更好地理解、预防和治疗各种疾病。但是,如此规模和复杂性的数据集给数据管理带来了前所未有的挑战。这就是 DNAnexus 的用武之地。DNAnexus 是 AWS 生命科学能力的长期合作伙伴,成立于 2009 年,其使命是帮助科学研究人员安全地访问、分析和操作复杂的生物医学数据。其可扩展的平台促进了协作,让用户能够共同分析多种类型的数据,包括基因组和临床数据。对于致力于破译复杂疾病的研究人员来说,这项功能十分重要。

DNAnexus 的 Biobank 总经理 Asha Collins 表示:“关键挑战是将数据汇集到一个地方,这样研究人员就可以分析包括遗传学、生活方式和成像在内的广泛数据类型的数百万个指标,而无需复制数据。
同样重要的是,我们必须解决如何提供必要的计算和数据存储的问题,以便研究人员能够轻松处理好这个庞大的数据集。”

2020 年,DNAnexus 和 AWS 开始与 UK Biobank 进行为期 3 年的合作,以实现数据访问的民主化。他们共同使用基于云的创新型 Research Analysis Platform(RAP)取代了成本高且耗时的数据下载,
让研究人员可以从世界各地安全地访问和分析整个 UK Biobank 数据库。UK Biobank 明白,除了最初的开发外,成功取决于该平台在集中式环境中管理日益增加的数据和提供分析工具的能力。

“关键挑战是将数据汇集到一个地方,这样研究人员就可以分析包括遗传学、生活方式和成像在内的广泛数据类型的数百万个指标,无需数据复制。同样重要的是,我们必须解决如何提供必要的计算和数据存储的问题,以便研究人员能够轻松处理好这个庞大的数据集。” 

-DNAnexus 的 Biobank 总经理 Asha Collins

共享“软拷贝”

研究人员最初通过自定义数据传输系统访问 UK Biobank 文件,该系统打包了早期的表格数据,供研究人员在自己的环境中下载和分析。但是,随着可用数据增加以及更多研究人员申请访问权限,这一方法变得不可行。到 2021 年底,来自 90 多个国家和地区的 2.8 万多名学术和行业科学家已获准访问 UK Biobank 数据库和研究资源库。

UK Biobank 副首席执行官 Mark Effingham 表示:“我们现在的所处情况是,所有这些团体在世界各地维护多个数据副本的效率或成本效益都很低。我们需要采取其他方法,让获得批准的研究人员进入一个得以使用数据的环境。”

DNAnexus 创建了一种安全的替代方案,减少了 UK Biobank 用户的基础设施和成本负担。使用 Amazon Simple Storage Service(Amazon S3)存储数据的单个版本,这是一种基于云的可扩展基础设施,可以支持并跟上 UK Biobank 的持续增长。

该平台可以智能地向研究人员提供数据,最大限度地减少数据重复。研究人员无法直接访问这些文件,而是通过虚拟环境操作,该环境可为其提供获准访问的数据子集的“软拷贝”。

这种协作还利用 Amazon Elastic Compute Cloud(Amazon EC2),该服务可以在云中提供安全并且可应需调整的计算容量。DNAnexus 通过 Amazon EC2 提供了一个灵活、可扩展的平台,研究人员只有在运行分析时才需要付费。该平台还可以利用 Amazon EC2 Spot 实例,与按需定价相比,可享受高达 90% 的折扣,因此即使是最大的任务也可以经济地运行。

Effingham 表示:“研究人员使用 DNAnexus 和 AWS 在该平台上共同创造了这样一个区域,不仅可以参与和运行自己的数据分析,还可以经济高效地使用可扩展的云基础设施、计算和存储,无论在何处运行分析,都可以提供实际支持。我们很自豪能够提供一个研究平台,该平台可以实现数据价值的最大化,并让世界各地的研究人员都能获得民主化的访问权限。”

通过匿名化实现安全访问

从数据隐私的角度来看,分享对 50 万参与者的相关健康记录的见解具有挑战性。为了保护这些数据,同时保留许多相互关联的生物医学数据点的价值,DNAnexus 开发了一种匿名化系统。

Collins 解释道:“它让我们能够在后台保留一份数据副本,从而节省大量成本。这些数据经过适当的匿名化处理并“软拷贝”到一个虚拟区域,在那里用户可以准确地看到获得批准的文件和表格字段,并对文件名进行适当更改。”

UK Biobank 依赖于增强的安全措施,要求每位研究人员获得略有不同的数据副本。每位研究人员的参与者 ID 都是匿名化的。这些 ID 嵌入在文件名和内容中,让 DNAnexus 能够扩展其匿名化支持。利用上述的“软拷贝”以及一些安全的下载机制,该平台无需复制任何数据即可满足成千上万研究人员具有挑战性的要求。

DNAnexus 开发此功能是为了满足对平台日益增长的需求,这些平台可以帮助研究人员安全地访问不断增长的多组学人口数据集。

事实证明,UK Biobank 数据库是全球研究界的强大资源,为可以改善公共健康的新科学发现提供了支持。Research Analysis Platform 有可能提高科学发现的速度和规模以及使访问民主化,让获得批准的研究人员能够自行分析世界各地的数据,从而促进对人类疾病的理解。此外,RAP 降低了整合并协调基因组学和临床数据的复杂性。它还使用户能够分析多种类型的数据并在基于云的平台内开展同一个研究项目,从而促进研究人员之间的协作。这一成功可能会推动进一步增长,促使 UK Biobank 选择与 DNAnexus 和 AWS 等以敏捷且可扩展的解决方案而闻名的合作伙伴开展合作。

Biobank

关于客户

UK Biobank 是一个大型生物医学数据库和研究资源库,包含来自 50 万英国参与者的遗传和健康详细信息。该数据库定期增加额外数据,对最常见和危及生命的疾病进行重要研究的研究人员经批准,可以在全球范围内访问该数据库。该数据库是促进现代医学和治疗发展的主要贡献来源,并促成了多项改善人类健康的科学发现。

关于 DNAnexus

DNAnexus 已经建立了一个安全、可信的云平台,用于访问、分析和转化世界上的生物医学数据,帮助科学界在医疗保健及生命科学领域取得可改变生活的突破。

发布日期:2022 年 5 月